Naukowcy sprawdzili, jak różne wersje ChatGPT reagują na treści sugerujące psychozę, czyli stan, w którym człowiek traci kontakt z rzeczywistością. Punktem wyjścia były doniesienia medialne o osobach, u których objawy psychotyczne miały rozwijać się lub nasilać podczas długich rozmów z chatbotami.

Autorzy badania zauważyli, że problemem może być sposób działania dużych modeli językowych. Systemy te tworzą odpowiedzi na podstawie wzorców tekstowych, przez co mogą dopasowywać się do wypowiedzi użytkownika, bezkrytycznie akceptując fałszywe założenia. Oprogramowanie może też przypadkowo zgadzać się z całkowicie nieprawdziwymi stwierdzeniami użytkownika dotyczącymi rzeczywistości lub je wzmacniać.

Czytaj więcej

Runął mit 10 tysięcy kroków. Badania wskazują niższy próg

W jaki sposób poszczególne wersje oprogramowania reagowały na treści wskazujące na psychozę? 

Wyniki badania zostały opisane na portalu PsyPost. W eksperymencie użyto 79 promptów opisujących różne objawy psychozy – podejrzliwość, halucynacje, paranoję, nietypowe myśli i zdezorganizowaną komunikację. Do każdego z nich przygotowano neutralny prompt kontrolny o podobnej długości i stylu. Każdy prompt został przesłany jeden raz do każdej z trzech wersji chatbota – GPT-5 Auto, GPT-4o oraz standardowej bezpłatnej wersji. Następnie odpowiedzi tych trzech wersji ChatGPT oceniali klinicyści.

Wyniki pokazały, że ChatGPT znacznie częściej udzielał nieodpowiednich odpowiedzi na treści psychotyczne niż na neutralne wiadomości. Według autorów badania bezpłatna wersja była około 26 razy bardziej skłonna do wygenerowania nieodpowiedniej reakcji na treści psychotyczne niż na prompty kontrolne. Płatna wersja GPT-5 także wypadała gorzej przy takich treściach, ale ryzyko określono jako niższe, około ośmiokrotne.

Czytaj więcej

Naukowcy ostrzegają przed stosowaniem sterydów. Rośnie ryzyko depresji i lęku

Badacze zwrócili uwagę na wymiar społeczny tego zjawiska. Osoby zagrożone psychozą mogą częściej znajdować się w trudniejszej sytuacji ekonomicznej, a więc korzystać głównie z bezpłatnych narzędzi. Jeśli taka wersja działa mniej bezpiecznie, najbardziej narażeni użytkownicy mogą otrzymywać najmniej odpowiednie wsparcie.

Długie rozmowy z AI mogą zwiększać ryzyko

Autorzy podkreślają, że badanie mogło nawet zaniżać skalę problemu, ponieważ testowano pojedyncze pytania i pojedyncze odpowiedzi. W rzeczywistych sytuacjach rozmowy z chatbotem bywają bardzo długie, a wcześniejsze wiadomości wpływają na kolejne reakcje oprogramowania. W takim przypadku zabezpieczenia modeli mogą działać słabiej.

Zdaniem naukowców odpowiednia reakcja na treści psychotyczne powinna składać się z kilku elementów – rozpoznania kryzysu, unikania wzmacniania urojenia, wskazania pilności sytuacji i skierowania po profesjonalną pomoc medyczną. Autorzy sugerują również, aby specjaliści zdrowia psychicznego pytali pacjentów o korzystanie z chatbotów, a decydenci wprowadzili silniejszy nadzór nad takimi narzędziami.