Opinie

Kłamstwa i statystyki

Bloomberg
Kiedy big data, czyli duże dane, mogą okazać się dumb data, czyli durnymi danymi – pisze ekspert.

Jestem entuzjastą statystyki i sztucznej inteligencji. Interesują mnie też przypadki błędnego korzystania ze statystyki, które mają dwojakie podłoże: behawioralne związane z niewystarczającym zrozumieniem testów statystycznych i logiki stojącej za założeniami, lub strategiczne związane z poszukiwaniem dowodów pod postawione już tezy.

Rosnący strumień informacji: zdjęć, tekstów, nagrań audio i wideo to fundament big data, czyli ogromnych baz danych, z których możemy korzystać na niemożliwą niedawno skalę. Zdaniem optymistów big data doprowadzi nas do rewolucji technologicznej. Wykorzystanie baz ma pomóc m.in. w leczeniu i zapobieganiu nowotworów, zwalczaniu głodu, odkrywaniu planet, przewidywaniu i reagowaniu na katastrofy naturalne czy powodowane przez człowieka, zapobieganiu przestępstwom, podnoszeniu efektywności polityki rządów. Czas pokaże, czy to uzasadniony optymizm.

Pozorna korelacja

Przeprowadźmy drobny eksperyment w oparciu o realne dane. Załóżmy, że stan Teksas poprosił mnie o pomoc w opracowaniu nowej polityki prorodzinnej. Wykorzystam big data, a za źródło posłużą mi dane demograficzne i ekonomiczne Departamentu Rolnictwa USA i dane o umieralności z Centrum Kontroli i Prewencji Chorób USA. Na podstawie analizy statystycznej znajduję sposób, w jaki teksańskie władze mogą zwiększyć liczbę zawieranych związków małżeńskich i zminimalizować odsetek rozwodów. Rozwiązanie jest proste: wystarczy zminimalizować spożycie mleka, a zmaksymalizować – margaryny, a także liczbę zgonów spowodowanych upadkiem ze schodów.

Wyniki te są statystycznie istotne, ale niedorzeczne. To przykłady pozornych korelacji. Wykorzystanie big data dodatkowo pogarsza sytuację. Amerykański rząd publikuje ok. 45 tys. ekonomicznych danych statystycznych, co daje nam 1 012 477 500 par zmiennych, czyli ponad 1 mld hipotez do sprawdzenia. Jednocześnie ilość zależności przyczynowo-skutkowych w gospodarce nie rośnie tak szybko, jak nasza zdolność gromadzenia danych.

Jeśli obawiasz się, że twój lekarz jest nieukiem, który nie czyta wyników najnowszych badań medycznych, mam dobre wieści – może to i dobrze. W 2005 r. Jon Ioannidis, profesor medycyny z Uniwersytetu Standforda, postawił opartą na statystycznym wnioskowaniu tezę: większość publikowanych wyników badań jest fałszywa. W 2011 r. Bayer Laboratories dowiodło, że Ioannidis miał rację. Dwóch trzecich opublikowanych w literaturze medycznej wyników badań nad nowymi lekami nie można było powtórzyć, innymi słowy są naciągane.

A co, jeśli zależność między zjawiskami jest słaba? Czy można je odrzucić? Dziś nikt nie podważa związku między paleniem papierosów a rakiem płuc. Ale w latach 50. jeden z twórców współczesnej statystyki matematycznej Ronald Fisher twierdził, że brak statystycznych dowodów na związek między tymi zmiennymi to dowód braku takiej zależności. Potrzeba było lat na zebranie dostatecznej ilości obserwacji, aby wątpliwości znikły. Rozumowanie Fishera jest przykładem błędu logicznego. Brak statycznych dowodów nie oznacza braku związku przyczynowo-skutkowego.

Podobnym przykładem jest tocząca się dyskusja nt. wpływu człowieka na globalne ocieplenie. Statystycznie nadal nie mamy wystarczająco wiarygodnych danych na potwierdzenie tego związku, ale warto zastanowić się nad konsekwencjami błędnego odrzucenia tej hipotezy.

Dane torturowane

Zjawisko „kreatywnego" wykorzystania danych występuje, gdy ich zestaw jest wykorzystywany do celów wnioskowania czy doboru modelu więcej niż raz. Innymi słowy, intensywne poszukiwanie istotnych statystycznie zmiennych prawie zawsze prowadzi do modelu, który idealnie wyjaśnia wszelkie interesujące nas zjawiska.

Sytuacja ta jest podobna do dobrze znanego pomysłu na giełdowy przekręt związany z dystrybucją newsletterów. Wybieramy dużą liczbę osób, które otrzymują wiadomość z darmowym egzemplarzem rekomendacji giełdowych. Połowie odbiorców wysyłamy rekomendację, aby sprzedali akcje, a drugiej by kupili, kontynuując takie działania przez kilka miesięcy. Potem sprzedajesz swoją usługę osobom, które otrzymały trafne prognozy.

Co jest więc nie tak z big data? Wszystkie problemy, które dotykają wnioskowania statystycznego w małych bazach danych, a więc small data, w tym przypadku stają się bardziej dotkliwe. Jaki jest więc prawidłowy sposób analizowania big data? Po pierwsze, nie ma jednej metody, która uchroniłaby nas od wyciągania błędnych wniosków. Po drugie, sytuacja nie jest beznadziejna. Błędom można częściowo zaradzić przez zdroworozsądkowe myślenie, głębokie zrozumienie poddawanego analizie problemu i większą liczbę lepszej jakości danych statystycznych, czyli takich, przy kalkulacji których przywiązano więcej wagi do założeń leżących u podstaw wybranej metody. Literatura pełna jest metod statystycznych zaprojektowanych specjalnie z myślą o big data. Ważny jest ich ostrożny dobór.

Nie chciałbym dyskredytować big data. Dają duże możliwości, ale tworzą wyzwania. Z dużym prawdopodobieństwem można więc założyć, że modele oparte na big data, które będą się pojawiały na naszej drodze, będą pełne błędów. To oczywiście dobre wieści dla ekonometryków, bo oznacza to, że będziemy mieli co robić. Jest to praca, w której nie wyprą nas maszyny w ramach rewolucyjnego rozwoju sztucznej inteligencji.

Dr Marcin Jaskowski pracuje w grupie Independent Model Review w HSBC Service Delivery w Krakowie

Źródło: Rzeczpospolita

REDAKCJA POLECA

NAJNOWSZE Z RP.PL