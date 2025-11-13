Aktualizacja: 13.11.2025 05:14 Publikacja: 13.11.2025 05:03
To kwestia suwerenności technologicznej, przy czym nie chodzi o to, żeby przestać używać narzędzi od big techów i zacząć używać Bielika. To byłoby robienie sobie „kuku”. Wszystko zależy od przypadku użycia. Zamknięte modele, jak ChatGPT, są fantastyczne do pewnych zadań. Jeśli chcecie uruchomić prostego czata w firmowym konkursie, który odpowie na pytania o nagrody, Bielik będzie za drogi. Lepiej wziąć ChataGPT i zapłacić 10 dolarów. Ale jeśli chcecie robić dziennikarstwo śledcze i przewalić tonę dokumentów z KRS, to za ChataGPT zapłacicie masę pieniędzy, a Bielik jest całkowicie za darmo. To otwarty model, uruchomicie go gdzie chcecie – w jakiejkolwiek chmurze, poza chmurą, na polskich czy europejskich serwerach, albo u siebie na biurku. I to jest moja definicja suwerenności technologicznej.
Muszę wyjaśnić, że Bielik to nie chatbot, jak ChatGPT. To tylko darmowy silnik, a więc użytkownik musi sobie sam dorobić „obudowę”. Ale to jest właśnie to, co buduje przewagę konkurencyjną. Bo jeśli wszyscy zaczniemy używać tego samego Perplexity czy ChataGPT do pracy, to gdzie tu przewaga konkurencyjna? A Bielika można pobrać jako silnik i dział IT albo zewnętrzny dostawca dostosuje go do określonych zadań, np. zintegruje go z KRS, rejestrem ksiąg wieczystych czy innymi bazami, by wyszukiwać danych, strukturyzować je, segmentować, tworzyć tzw. grafy wiedzy. Bielik świetnie sprawdza się właśnie w takich zadaniach, w oczyszczaniu danych. Jeden z przypadków użycia Bielika związany był np. z analizą wpisów na platformie X, gdzie pozwalał różnym służbom na badanie społeczności i kontrowersyjnych tematów w tym serwisie oraz szukanie wybuchających emocji wokół określonych tematów, np. wojny w Ukrainie.
I znów muszę to podkreślić – nie sam Bielik, bo Bielik to silnik, bardzo ważny element, ale można go tak obudować, by powstało narzędzie do czytania i strukturyzacji danych. Po co płacić za tokeny i wykorzystanie jakiegoś dużego zagranicznego modelu, skoro do tej prostej roboty związanej z ekstrakcją danych można zaprząc kompaktowego, darmowego Bielika. Będzie pracować 24 godziny na dobę, bez rozliczania tokenów. Jedyny koszt to właśnie ta „obudowa”, no i jakiś serwer.
Mamy dwie główne grupy. Pierwsza to firmy regulowane albo takie, które obracają wrażliwymi danymi i potrzebują prywatności. Największa absorpcja jest w bankach, bo one nie mogą wszystkiego wysłać do zewnętrznej chmury. Np. Bank Pekao pokazywał niedawno, że analizuje już półtora miliona dokumentów kwartalnie i 5 mln transakcji dziennie. Gdyby chcieli to robić w chmurze, rachunki byłyby gigantyczne.
Z tego samego powodu budzi się sektor publiczny. Samorządy nie chcą przetwarzać wniosków o budowę czy danych z ksiąg wieczystych w chmurze. Podobnie wojsko. Ostatnio o Bieliku wypowiadał się nawet gen. Karol Molenda, dowódca Komponentu Wojsk Obrony Cyberprzestrzeni. Potencjał Bielika w takich zastosowaniach jest ogromny, bo to model, który jest tak bezpieczny jak infrastruktura, na której będzie użyty. Dane nigdzie nie wychodzą, możemy nawet serwer z Bielikiem odłączyć od internetu.
Ale jest też druga grupa użytkowników. To start-upy, które chcą budować na Bieliku swoje cyfrowe produkty. To możliwe, bo działa on na otwartej licencji Apache 2.0 i można go używać komercyjnie. Świetnym przykładem jest start-up prawny, który używa Bielika w swoim narzędziu Gaius Lex. Użytkownik płaci kilkadziesiąt złotych za usługę, a ona pod spodem korzysta z naszego silnika.
Bezpośrednio dla małych i średnich firm Bielik jako silnik raczej nie jest optymalnym rozwiązaniem. One powinny korzystać właśnie z takich rozwiązań, jak Gaius Lex, czyli produktów zbudowanych na Bieliku przez wyspecjalizowane start-upy. Sam silnik Bielik jest darmowy, ale „obudowa” to już inwestycja – stworzenie aplikacji, kupno serwera z odpowiednią kartą GPU.
Różnie, ale uruchomienie Bielika jest możliwe na karcie za 15 tys. zł, więc serwer nie jest aż tak drogi. Sądzę, że stworzenie całej tej „obudowy” to inwestycja od 100 tys. zł wzwyż. Dlatego to jest rozwiązanie dla dużych korporacji lub start-upów. Jednocześnie warto podkreślić, że ograniczone wersje można uruchomić nawet na zwykłym komputerze, korzystając z ogólnodostępnego, darmowego oprogramowania. I to świetny sposób, żeby zacząć eksperymenty, zanim przejdzie się do pełnej produkcyjnej infrastruktury.
Nasz model jest „linuxowy”. Wzorujemy się na Linux Foundation, chcemy żyć ze sponsorów, bo to daje nam ogromną wolność. Działamy jak w sporcie – możemy mieć na koszulce 20 logotypów, ale nikt nam się nie wtrąca do treningu. Firmy, które normalnie ze sobą konkurują, jak Microsoft i Google, u nas potrafią być partnerami, bo to projekt społeczny.
Big techy zarabiają na chmurze. One się cieszą z każdego rozwiązania, które zwiększa jej wykorzystanie czy użycie procesorów GPU. Poza tym to współpraca – z Google uruchomiliśmy projekt „Eskadra Bielika”, dali nam środki na organizowanie lokalnych, darmowych szkoleń dla programistów z użycia Bielika, no i oczywiście rozwiązań Google. Z Nvidią mamy ogromną wymianę wiedzy, ale nie dostaliśmy od nich ani GPU, ani finansowania. Jednak dzięki tej współpracy jako jedni z pierwszych w Europie zrobiliśmy działający model wnioskujący. W zamian Bielik jest certyfikowany i dostępny na ich platformie. To daje nam niesamowity globalny rozgłos.
To odpowiem: „nie”. Nie ma problemu, żeby została sponsorem.
Nie. Oczywiście, dostajemy masę pytań, dlaczego się nie komercjalizujemy, ale to nie jest droga, którą chcemy iść. Gdybyśmy dziś powiedzieli, że Bielik jest gotowy pozyskać inwestora, myślę, że spokojnie moglibyśmy zacząć rozmowy o wycenie rzędu co najmniej 50 mln dol. Sama nasza marka jest wyceniana na kilka milionów. Tylko taki ruch byłby obarczony dużym ryzykiem. W naszym modelu „linuxowym” możemy zdziałać więcej, na bazie Bielika może powstać 100 lub 200 firm i wtedy prawdopodobieństwo, że dwóm lub trzem uda się zostać jednorożcami, jest znacznie większe. Taką właśnie komercjalizację preferujemy – przez spin-offy. One biorą nasz silnik, budują biznes, a gdy urosną, wracają do fundacji – mam nadzieję – jako sponsorzy.
Im lepsze robimy modele i im większych partnerów pozyskujemy, tym więcej. Ile? Tego nie zdradzę, ale to wygląda w ten sposób, że gdy do niedawna pakiet sponsorski kosztował X, to teraz, już po nawiązaniu współpracy z Nvidią, jest to pułap 10 X. Jakbyśmy zrobili model europejski i zamiast obecnego miliona pobrań mieli 100 mln, to stawka sponsorska byłaby 100 X i to w euro.
Mamy ich już kilku, ale wkrótce ogłosimy trzech naprawdę dużych. To pierwsza liga, będą wiodącymi sponsorami.
Dokładnie. Wiem, że część firm tego nie rozumie. Nie rozumie też naszego modelu działania. Często zdarza się, że wzywa mnie np. duża korporacja i mówi: „Ale fajny ten Bielik. Zróbcie dla nas jakiś projekt – mamy taki budżet, a wy przeprowadźcie wdrożenie”. Tylko że to tak nie działa. Nie mamy pracowników, jak w przedsiębiorstwie, ale wolontariuszy. Oni nad Bielikiem pracują po godzinach.
Bielik to siła open source. Mamy społeczność 4000 osób na Discordzie. To są ludzie z biznesu, prawnicy, programiści, którzy dają nam ciągły feedback. Ale ścisły zespół trenujący, który ma dostęp do GPU i tworzy modele, to jest około siedmiu osób. Drugi krąg, zajmujący się oprogramowaniem pomocniczym, stroną www, prawem czy promocją, to może grupa 50 osób.
Chcą. Dostają oferty, choćby z chińskiej Doliny Krzemowej. Zespół właśnie wraca z tournée po USA, więc zobaczymy, co będzie, czy wszyscy wrócą (śmiech).
A na poważnie, myślę, że jesteśmy trochę szaleńcami. W Polsce brakuje innowacji, bo brakuje nam odwagi w biznesie i właśnie silnego ruchu open source. W korporacji czy grancie naukowym nigdy nie będę miał takiej autonomii, jak tutaj. Mamy niesamowitą wymianę wiedzy, bez polityki korporacyjnej. I robimy coś, co ma realny wpływ na rozwój Polski. Ja od trzech lat nie miałem weekendu ani urlopu, ale motywacja jest ogromna.
Ten milion pobrań to duża rzecz, bo żeby pobrać model, trzeba mieć GPU i wiedzę. To nie jest aplikacja mobilna. Plany na przyszłość to nowe modele. Po pierwsze, Bielik 3.0, który będzie już wielojęzykowy. Po drugie, model Sójka – bardzo mały model wyspecjalizowany w bezpieczeństwie, wykrywaniu wulgaryzmów, przemocy, mowy nienawiści, a nawet treści kryminalnych, np. pytań o narkotyki na forach internetowych. Sójka może działać jako „strażnik” dla Bielika, którego celowo nie cenzurujemy.
Mam też ważny społecznie projekt „Obywatel Bielik”. Chcemy zbudować polski model multimodalny, czyli taki, który rozumie też obrazy. Zagraniczne modele nie znają naszej domeny, mylą kluskę śląską z makaronikiem albo „Seksmisję” ze „Star Wars”. Nie mamy otwartych, polskich zbiorów zdjęć do trenowania, bo archiwa mają problem z prawami autorskimi, dlatego tworzymy aplikację mobilną, w ramach której każdy Polak będzie mógł uczyć Bielika. Szczególnie liczymy na seniorów, robimy już szkolenia na Uniwersytetach Trzeciego Wieku. Chodzi o zdjęcia codzienności – obiad u babci, regionalne potrawy, budynki. Babcia, która wysyła nam zdjęcie klusek z opisem, realnie tworzy dane treningowe dla polskiej AI. Bielik, zyskując zdolności rozpoznawania obrazu, zyska natychmiastowe zastosowanie. W czerwcu br. wszedł Europejski Akt Dostępności (EAA), który nakazał sklepom internetowym opisywać wszystkie zdjęcia produktów dla osób niewidzących. Taki przykładowy sklep, który ma 25 tys. produktów, staje więc przed wyzwaniem. A nasz model, nauczony polskości, będzie potrafił to zrobić tanio i nie pomyli sera bursztyn z oscypkiem. Drugi przykład to archiwa zdjęć i materiałów wideo – będzie można wyszukiwać obrazy zadając konkretne pytanie, np.: „Pokaż mi wszystkie zdjęcia brodatych mężczyzn, patrzących w lewo i krzykliwie ubranych” lub kadry wideo np. osób wypowiadających określone zdanie. To jest przyszłość, którą budujemy.
To prawda, ale nie wykorzystujemy gotowego modelu, tylko rozpoczynamy trening od inicjacji wagami Mistrala. To, co robimy to tzw. kontynuowanie treningu. Używając metafory edukacyjnej: to tak, jakbyśmy wzięli czterolatka, który 4 lata był we Francji, przeprowadził się do Polski i tu rozpoczął całą edukację – podstawówkę, szkołę średnią i studia. Wzięliśmy wagi Mistrala, ale zainicjowaliśmy cały proces treningu od nowa, przy ogromnej ilości języka polskiego.
Patrząc na system edukacji amerykańskiej, to powiedziałbym, że jest po uniwersalnym college’u, ale nie przepracował ani jednego dnia w biznesie. To taki „świeżak” po studiach. Jakbyście dali mu test dziennikarski, zdałby na piątkę, ale jak każecie mu napisać artykuł, to jeszcze musi trochę z wami popracować.
Porównałbym go do osoby, która skończyła kilka uczelni różnego rodzaju i w różnych językach. Tyle że to w modelach otwartych jest przewaga. Chodzi o dostrajanie. Możecie wziąć Bielika, nauczyć go waszego stylu, waszej wiedzy, tworząc tysiące wzorcowych przykładów. I to jest wasz prywatny Bielik. Wiedza, którą mu daliście, nie trafia do ChataGPT i do firm będących waszymi konkurentami. To duża wartość.
Na przełomieroku (ale będziemy starać się szybciej) planujemy premierę Bielika 3.0 – to będzie już model wielojęzykowy. I tak, chcemy tę ekspansję zrobić, ale najpierw nabieramy kompetencji w języku polskim. Zgłosiła się już do nas Słowenia, która buduje swoją fabrykę AI. Jeśli chodzi o duże modele językowe w Europie, to w Bieliku widzą lidera.
To bardziej tzw. koopetycja, czyli współpraca i rywalizacja. My z PLLuM-em, gdyby użyć analogii piłkarskiej, jesteśmy jak zawodnicy, którzy rywalizują w klubach, ale spotykają się w reprezentacji i grają do jednej bramki. To, że mamy w Polsce dwa modele AI, stanowi o naszej mocnej pozycji w Europie.
Sebastian Kondracki
Współzałożyciel projektu i fundacji SpeakLeash, twórcy polskiego modelu językowego Bielik. Szef innowacji w Deviniti, ekspert transformacji cyfrowej, specjalizuje się w dużych modelach językowych i systemach AI w biznesie. Członek Grupy Roboczej ds. Sztucznej Inteligencji przy Ministerstwie Cyfryzacji, autor książki „Python i AI dla e-commerce”, wykładowca.
