Jednym z kluczowych sposobów na rozwiązanie problemu halucynacji jest dobór danych, których używamy, co jest też częścią dyskusji na temat tego, jakie dane możemy, a jakich nie możemy używać. Zazwyczaj, gdy mówimy o danych, patrzymy na trzy główne aspekty. Pierwszym z nich jest ilość. Jeśli nie mamy wystarczająco danych lub gdy zwiększamy ich ilość, zauważamy, że halucynacje maleją. Istnieje silna korelacja między ilością danych a spadkiem halucynacji. Drugim aspektem jest jakość danych. Poświęcamy dużo czasu na upewnienie się, że dane wprowadzone do naszego modelu są wysokiej jakości i godne zaufania. Wraz z poprawą jakości danych poprawia się także jakość modelu, a halucynacje są redukowane. Trzeci czynnik to różnorodność, czyli to, czy mamy wystarczające pokrycie tematów w naszych danych. Jeśli zaczniemy pytać o tematy, o których model nigdy nie słyszał, to odpowie coś, niezależnie od tego, czy ma na ten temat dane. I tutaj dochodzimy do pytania, jak ustalimy regulacje dotyczące wykorzystania danych europejskich. Jeśli model nie jest trenowany na danych europejskich, będzie miał znacznie wyższy poziom halucynacji przy pytaniach, które zadaje europejska populacja. A nie ma sensu wypuszczać na rynek słabego produktu w Europie.

Wiele rządów mocno skupia się na ryzyku, że modele sztucznej inteligencji będą wykorzystywane do rozpowszechniania dezinformacji lub mowy nienawiści. Czy jednak nadmierna moderacja tych modeli nie zaszkodzi rozwojowi technologii AI?

Dostrzegamy takie ryzyko. Istnieje wiele sposobów, aby upewnić się, że „agent” nie powie nic złego. Oznacza to, że nie mówi prawie nic lub zawsze mówi banały, a w takim przypadku jest to produkt bardzo nudny. Widzimy to w odniesieniu do dezinformacji oraz do innych wektorów ryzyka. Mamy taksonomię ryzyka. Próbujemy się zastanowić, które czynniki stanowią naprawdę poważne ryzyko, a które znacznie łagodniejsze. Na przykład, coś takiego jak materiały przedstawiające seksualne wykorzystanie dzieci, stanowią bardzo poważne ryzyko – absolutnie nie możemy sobie pozwolić na przyjęcie tych danych. Materiały o charakterze dezinformacji są w niektórych przypadkach łagodniejsze, ale ich skutki mogą być dotkliwe. Dlatego staramy się mieć zniuansowane podejście do poziomu ryzyka i zwracać większą uwagę na rzeczy, które stwarzają większy potencjał wyrządzenia szkody w prawdziwym świecie.