19: Александър Ангелов и Симеон Мартев (Scrapy и Elastic)
В епизода Владо и Стефан обсъждат последните новини около големите езикови модели (въздъх) и философстват дали това е истински изкуствен интелект или е просто зомби папагал. Това е само прелюдия към същинската част на епизода, а именно разговор за Scrapy (https://scrapy.org/) (технология за събиране на данни от отворени източници на информация - сайтове) и Elastic (https://www.elastic.co/) (технология за индексиране на големи масиви от текст и неговото филтриране). Плот туист, и двете технологии са много полезни, ако искате да си правите сами големи езикови модели, но не искате да ползвате наличните набори от данни за трениране, а искате да комбинирате с нещо ваше.
В епизода покриваме:
* как се пишат правилата и скриптовете за извличане на данни от отворени източници;
* как се управляват опашки за агрегиране на данни от хиляди източници. Малко чепкаме и AirFlow (https://airflow.apache.org/);
* библиотеки за автоматизация на извличането на дейта поинти;
* технологии за индексация на големи масиви данни (Logstash (https://www.elastic.co/logstash/));
* силни и слаби страни на Elastic.
Още връзки:
* Scrapy // https://scrapy.org
* Elastic // https://www.elastic.co
* Elastic vs Amazon licensing drama // https://www.elastic.co/blog/why-license-change-aws
* Zyte / scrapy extract summit // https://www.extractsummit.io
* Apache Airflow // https://airflow.apache.org
* Какво е дуплекс // https://en.wikipedia.org/wiki/Partyline(telephony) Special Guests: Александър Ангелов and Симеон Мартев.