Тилда Наклонена Черта

19: Александър Ангелов и Симеон Мартев (Scrapy и Elastic)

Тилда Наклонена Черта

В епизода Владо и Стефан обсъждат последните новини около големите езикови модели (въздъх) и философстват дали това е истински изкуствен интелект или е просто зомби папагал. Това е само прелюдия към същинската част на епизода, а именно разговор за Scrapy (https://scrapy.org/) (технология за събиране на данни от отворени източници на информация - сайтове) и Elastic (https://www.elastic.co/) (технология за индексиране на големи масиви от текст и неговото филтриране). Плот туист, и двете технологии са много полезни, ако искате да си правите сами големи езикови модели, но не искате да ползвате наличните набори от данни за трениране, а искате да комбинирате с нещо ваше. В епизода покриваме: * как се пишат правилата и скриптовете за извличане на данни от отворени източници; * как се управляват опашки за агрегиране на данни от хиляди източници. Малко чепкаме и AirFlow (https://airflow.apache.org/); * библиотеки за автоматизация на извличането на дейта поинти; * технологии за индексация на големи масиви данни (Logstash (https://www.elastic.co/logstash/)); * силни и слаби страни на Elastic. Още връзки: * Scrapy // https://scrapy.org * Elastic // https://www.elastic.co * Elastic vs Amazon licensing drama // https://www.elastic.co/blog/why-license-change-aws * Zyte / scrapy extract summit // https://www.extractsummit.io * Apache Airflow // https://airflow.apache.org * Какво е дуплекс // https://en.wikipedia.org/wiki/Partyline(telephony) Special Guests: Александър Ангелов and Симеон Мартев.

Next Episodes