Zwycięzca pucharu KDD 2015 zgadywał, czy student w ciągu dziesięciu dni porzuci internetowy kurs, z dokładnością do 90 proc. Co do algorytmów przewidujących efektywność promocji, to dotychczas specjaliści firmy Alibaba potrafili prognozować tę skuteczność w 65 proc. Zwycięski program osiągnął 70 proc. Te wyniki będą się poprawiać, choć oczywiście nigdy nie osiągną stuprocentowej dokładności.
Max Kanter, student Massachusetts Institute of Technology (MIT), napisał swój program w ramach pracy magisterskiej. Zarówno jemu, jak i jego promotorowi algorytm wydawał się bardzo dobry, potrzeba jednak było jakiegoś obiektywnego testu. O to w świecie analityków danych nietrudno. Środowisko to organizuje konkursy na najtrafniejszą analizę, więc Kanter zgłosił swój program do kilku edycji takich zmagań: pucharu KDD 2014 i 2015 oraz zawodów IJCAI 2015. Zasady były za każdym razem podobne. Uczestnicy otrzymywali bazę z olbrzymią ilością danych i na tej podstawie musieli odpowiedzieć jak najtrafniej na konkursowe pytanie.
W przypadku konkursu KDD należało przewidzieć, który z uczestników internetowych studiów zrezygnuje z kursu w ciągu dziesięciu dni oraz który z pomysłów na biznes przedstawiony na portalu crowdfundingowym zostanie przez publiczność uznany za ekscytujący. Przewidywania dotyczyły więc ludzkich zachowań. W obu edycjach pucharu KDD algorytm studenta wykazał się zdolnością przewidywania na poziomie 95 proc. tego, co zaprezentował zwycięzca, pokonując większość innych drużyn.
A były to drużyny nie byle jakie, sami fascynaci analizy danych, motywowani chęcią zdobycia nagród z puli wynoszącej 20 tys. dolarów.
W trzecim konkursie (IJCAI 2015) algorytm miał za zadanie przewidzieć, który klient kupujący towar w promocji powróci potem, by kupić tę samą rzecz już w pełnej cenie. Jest to pytanie, które spędza sen z powiek wielu ekspertom od sprzedaży. Główna nagroda w tym konkursie ufundowana przez chiński koncern handlowy Alibaba wynosiła 50 tys. dolarów. Program Kantera poradził sobie tu nieco gorzej (87 proc. wyniku zwycięzcy).
Jak działa ten algorytm?
W sposób dość mechaniczny wykorzystuje moc obliczeniową komputera, tworząc mnóstwo nowych parametrów. Mnoży i dzieli dane wejściowe przez siebie, sprawdzając na przykład maksymalny, minimalny i średni koszt zamówienia klienta. Potem te nowo otrzymane zmienne przetwarza znów i znów, tworząc zmienne, które człowiek uznałby za bezsensowne i pozbawione odniesień w rzeczywistości. Algorytm działa więc niejako na ślepo, bez jakiejkolwiek próby wniknięcia w istotę sytuacji. Nie zastanawia się, które parametry są mniej ważne. Po prostu wykonuje na nich mnóstwo różnych działań, poszukując zależności.