Jestem entuzjastą statystyki i sztucznej inteligencji. Interesują mnie też przypadki błędnego korzystania ze statystyki, które mają dwojakie podłoże: behawioralne związane z niewystarczającym zrozumieniem testów statystycznych i logiki stojącej za założeniami, lub strategiczne związane z poszukiwaniem dowodów pod postawione już tezy.
Rosnący strumień informacji: zdjęć, tekstów, nagrań audio i wideo to fundament big data, czyli ogromnych baz danych, z których możemy korzystać na niemożliwą niedawno skalę. Zdaniem optymistów big data doprowadzi nas do rewolucji technologicznej. Wykorzystanie baz ma pomóc m.in. w leczeniu i zapobieganiu nowotworów, zwalczaniu głodu, odkrywaniu planet, przewidywaniu i reagowaniu na katastrofy naturalne czy powodowane przez człowieka, zapobieganiu przestępstwom, podnoszeniu efektywności polityki rządów. Czas pokaże, czy to uzasadniony optymizm.
Pozorna korelacja
Przeprowadźmy drobny eksperyment w oparciu o realne dane. Załóżmy, że stan Teksas poprosił mnie o pomoc w opracowaniu nowej polityki prorodzinnej. Wykorzystam big data, a za źródło posłużą mi dane demograficzne i ekonomiczne Departamentu Rolnictwa USA i dane o umieralności z Centrum Kontroli i Prewencji Chorób USA. Na podstawie analizy statystycznej znajduję sposób, w jaki teksańskie władze mogą zwiększyć liczbę zawieranych związków małżeńskich i zminimalizować odsetek rozwodów. Rozwiązanie jest proste: wystarczy zminimalizować spożycie mleka, a zmaksymalizować – margaryny, a także liczbę zgonów spowodowanych upadkiem ze schodów.
Wyniki te są statystycznie istotne, ale niedorzeczne. To przykłady pozornych korelacji. Wykorzystanie big data dodatkowo pogarsza sytuację. Amerykański rząd publikuje ok. 45 tys. ekonomicznych danych statystycznych, co daje nam 1 012 477 500 par zmiennych, czyli ponad 1 mld hipotez do sprawdzenia. Jednocześnie ilość zależności przyczynowo-skutkowych w gospodarce nie rośnie tak szybko, jak nasza zdolność gromadzenia danych.
Jeśli obawiasz się, że twój lekarz jest nieukiem, który nie czyta wyników najnowszych badań medycznych, mam dobre wieści – może to i dobrze. W 2005 r. Jon Ioannidis, profesor medycyny z Uniwersytetu Standforda, postawił opartą na statystycznym wnioskowaniu tezę: większość publikowanych wyników badań jest fałszywa. W 2011 r. Bayer Laboratories dowiodło, że Ioannidis miał rację. Dwóch trzecich opublikowanych w literaturze medycznej wyników badań nad nowymi lekami nie można było powtórzyć, innymi słowy są naciągane.