Wszyscy korzystają dziś z ChataGPT. Po co nam polski model językowy Bielik?

To kwestia suwerenności technologicznej, przy czym nie chodzi o to, żeby przestać używać narzędzi od big techów i zacząć używać Bielika. To byłoby robienie sobie „kuku”. Wszystko zależy od przypadku użycia. Zamknięte modele, jak ChatGPT, są fantastyczne do pewnych zadań. Jeśli chcecie uruchomić prostego czata w firmowym konkursie, który odpowie na pytania o nagrody, Bielik będzie za drogi. Lepiej wziąć ChataGPT i zapłacić 10 dolarów. Ale jeśli chcecie robić dziennikarstwo śledcze i przewalić tonę dokumentów z KRS, to za ChataGPT zapłacicie masę pieniędzy, a Bielik jest całkowicie za darmo. To otwarty model, uruchomicie go gdzie chcecie – w jakiejkolwiek chmurze, poza chmurą, na polskich czy europejskich serwerach, albo u siebie na biurku. I to jest moja definicja suwerenności technologicznej.

Ale jak to jest, że w jednym wypadku Bielik jest za drogi, a w innym za darmo?

Muszę wyjaśnić, że Bielik to nie chatbot, jak ChatGPT. To tylko darmowy silnik, a więc użytkownik musi sobie sam dorobić „obudowę”. Ale to jest właśnie to, co buduje przewagę konkurencyjną. Bo jeśli wszyscy zaczniemy używać tego samego Perplexity czy ChataGPT do pracy, to gdzie tu przewaga konkurencyjna? A Bielika można pobrać jako silnik i dział IT albo zewnętrzny dostawca dostosuje go do określonych zadań, np. zintegruje go z KRS, rejestrem ksiąg wieczystych czy innymi bazami, by wyszukiwać danych, strukturyzować je, segmentować, tworzyć tzw. grafy wiedzy. Bielik świetnie sprawdza się właśnie w takich zadaniach, w oczyszczaniu danych. Jeden z przypadków użycia Bielika związany był np. z analizą wpisów na platformie X, gdzie pozwalał różnym służbom na badanie społeczności i kontrowersyjnych tematów w tym serwisie oraz szukanie wybuchających emocji wokół określonych tematów, np. wojny w Ukrainie.

Czyli Bielik narzędziem do walki z rosyjską dezinformacją?

I znów muszę to podkreślić – nie sam Bielik, bo Bielik to silnik, bardzo ważny element, ale można go tak obudować, by powstało narzędzie do czytania i strukturyzacji danych. Po co płacić za tokeny i wykorzystanie jakiegoś dużego zagranicznego modelu, skoro do tej prostej roboty związanej z ekstrakcją danych można zaprząc kompaktowego, darmowego Bielika. Będzie pracować 24 godziny na dobę, bez rozliczania tokenów. Jedyny koszt to właśnie ta „obudowa”, no i jakiś serwer.

Kto w takim razie jest głównym użytkownikiem Bielika?

Mamy dwie główne grupy. Pierwsza to firmy regulowane albo takie, które obracają wrażliwymi danymi i potrzebują prywatności. Największa absorpcja jest w bankach, bo one nie mogą wszystkiego wysłać do zewnętrznej chmury. Np. Bank Pekao pokazywał niedawno, że analizuje już półtora miliona dokumentów kwartalnie i 5 mln transakcji dziennie. Gdyby chcieli to robić w chmurze, rachunki byłyby gigantyczne.