Nareszcie jest
W styczniu 2019 roku doczekaliśmy się wreszcie Jednolitego Systemu Antyplagiatowego. Powstawał przez półtora roku – od połowy 2017 do końca 2018, w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym w Warszawie. JSA to system informatyczny, który pomaga promotorom wykryć plagiaty prac dyplomowych: licencjackich, inżynierskich i magisterskich a także doktorskich. Jednocześnie ustawa o szkolnictwie wyższym i nauce z lipca 2018 roku nałożyła na wszystkie uczelnie w Polsce obowiązek weryfikowania prac z jego pomocą. Odtąd wszystkie pisemne prace dyplomowe i doktorskie muszą przed obroną być sprawdzone przez JSA. System jest udostępniany nieodpłatnie wszystkim polskim uczelniom. Ma jedynie wspierać promotora, a nie go wyręczać – to człowiek ostatecznie decyduje, czy dopuści do obrony pracy. System, podobnie jak prawo, nie działa wstecz, więc nie możemy prześwietlić dotychczasowego dorobku naszych naukowców – w każdym razie uczelnie nie mają takiego obowiązku.
JSA bazuje na dziesięciu wielkich bazach danych: Ogólnopolskim Repozytorium Pisemnych Prac Dyplomowych (około 3 mln prac dyplomowych), bazie NEKST (obraz polskiego internetu – około 760 milionów dokumentów), sześciu Wikipediach w różnych językach i dwóch zbiorach aktów prawnych.
Jak działa? Czy algorytm bierze pod uwagę tylko wierne podobieństwo? Co jeśli ktoś zmieni kolejność słów w zdaniu?
– Nasz system antyplagiatowy jest na coś takiego całkowicie niewrażliwy. On dzieli każdy tekst na zdania, a zdania są dzielone na słowa, które tworzą kolekcje nieuporządkowane – tłumaczy dr Marek Kozłowski, współtwórca JSA, w wywiadzie dla portalu Sztucznainteligencja.org.pl stworzonego niedawno przez OPI PIB. „Więc jeśli napiszemy: »Mama lubi kota« albo: »Mama kota lubi«, to system w obu przypadkach widzi trzy różne słowa w dwóch zbiorach, a te zbiory są równoważne. (...) Nasz algorytm jest niewrażliwy na zmiany szyku zdania, kolejność wyrazów, wielkość liter czy interpunkcji".
Administrator systemu może jednak regulować poziom czułości algorytmu w zależności od tematyki analizowanego tekstu. Uczelnie średnio ustawiają suwak podobieństwa na 50 proc. (gdy 0 proc. oznacza, że system uznawałby za plagiat każdy tekst, a 100 proc. – wiernego klona oryginalnego tekstu na poziomie pojedynczych zdań i ich wyrazów). Wydziały techniczne powinny ustawić tę czułość np. na 70 proc., natomiast wydziały humanistyczne mogą poprzestać na 30 proc., ponieważ w takich tekstach o wiele łatwiej zatuszować plagiat. W szczególnej sytuacji są przyszli prawnicy, ponieważ przytaczają w pracy dyplomowej akty prawne – treść przepisów i orzeczeń sądowych. JSA musi uwzględnić to swojej ocenie.
Spore podobieństwo
W pierwszych dwóch miesiącach funkcjonowania – w styczniu i lutym 2019 r. – system sprawdził 40 tys. prac. Tysiąc z nich miało bardzo wysoki, 70-proc. rozmiar podobieństwa, czyli wskaźnik obrazujący, jaka część tekstu pochodzi z innych prac. W tej chwili sprawdził już ponad 150 tys. prac.