Jak sztuczna inteligencja wykrywa plagiat i udział AI w tekście?

Kontynuując wątki z naszego poprzedniego artykułu, pora zająć się tematyką nowoczesnych narzędzi AI do sprawdzania tekstu pod kątem uczciwości. Chodzi tutaj o sposoby, jak sztuczna inteligencja wykrywa plagiat i udział AI w tekście. Rynek usług informatycznych wzbogacił się bowiem o specjalistyczne oprogramowanie do analizy treści, którego zadaniem jest wykrycie, czy tekst został napisany przez człowieka. Przyjrzyjmy się tej kwestii nieco bliżej.

Jak sztuczna inteligencja wykrywa plagiat?

Wraz z rozwojem narzędzi komputerowych opartych na sieciach neuronowych i algorytmach, na świecie pojawia się coraz więcej programów do wykrywania plagiatu w tekście. Tego typu oprogramowanie opiera się na zaawansowanych bazach danych, porównując wklejony przez użytkownika fragment tekstu z treściami już istniejącymi. Aplikacje te od lat wykorzystywane są przez środowisko akademickie, a dziś na rynku dostępne są również komercyjne programy antyplagiatowe.

Warto wymienić kilka najpopularniejszych narzędzi do samodzielnego wykrywania plagiatu online:

1Text – narzędzie działające za darmo do 5000 znaków ze spacjami dziennie, które oferuje dokładne wyniki wraz z konkretnymi miejscami plagiatu i źródłami.
Originality.AI – pozwala sprawdzić treść pod kątem plagiatu, użycia AI, a także fact-checkingu; wersja bezpłatna obsługuje maksymalnie 500 wyrazów.
Grammarly – służy nie tylko do poprawiania tekstów anglojęzycznych pod kątem ortografii, gramatyki i stylistyki, ale również sprawdza oryginalność tekstów.

Poszczególne projekty mają dostęp do różnych baz danych, dlatego też mogą dawać różne rezultaty. Darmowe programy zwykle korzystają z nieco bardziej okrojonych baz. Z kolei płatne oprogramowanie, jak np. Scribbr, opiera się na bazie Turnitin, która oferuje dokładniejsze wyniki.

Czy AI potrafi wykryć użycie AI w tekście?

W dziedzinie publikacji naukowych mamy w ostatnich latach do czynienia z rosnącym zagrożeniem ze strony sztucznej inteligencji. Duże modele językowe, takie jak popularny ChatGPT czy Google Gemini, są coraz częściej używane przez autorów prac. Co ciekawe, inżynierowie opracowali już szereg rozwiązań, których celem jest wykrywanie potencjalnego użycia AI oraz LLM-ów w tekście.

Najnowsze badania naukowców z Uniwersytetu Stanforda wykazują stały wzrost wykorzystania narzędzi LLM w wielu dziedzinach nauki. Największy wskaźnik dotyczy prac z zakresu informatyki (do 17,5%), podczas gdy wzrost ten w publikacjach Nature osiągnął poziom 6,3%. Naukowcy w swoich badaniach dowodzą szerokie zastosowanie dużych modeli językowych w piśmiennictwie naukowym.

Narzędzia AI, które zostały zaprojektowane do wykrywania udziału AI w tekstach, mogą opierać się na kilku krokach do wykonania analizy:

Rozbicie całego tekstu na mniejsze fragmenty.
Normalizacja treści wraz z usunięciem znaków interpunkcyjnych oraz nieistotnych wskaźników.
Wektoryzacja tekstu, czyli technika polegająca na przekształceniu treści w kod matematyczny używany do porównań z bazą danych.

Wykrywacze AI szukają wzorców, którymi charakteryzują się nieskomplikowane treści, jakie tworzą dziś duże modele językowe. Nietypowe formy, odwołania do kultury czy złożone treści naukowe, zwykle nie zostaną oflagowane jako napisane przez sztuczną inteligencję.

Niektóre programy do wykrywania udziału sztucznej inteligencji w tworzeniu tekstów potrafią też przyglądać się gramatyce. Wówczas pod uwagę brane są pewne wzorce, które mogą wskazywać na obecność treści AI, które często opierają się na nienaturalnym, sztucznie brzmiącym języku.

Wzrost znaczenia treści akademickich pisanych przez człowieka

Na przestrzeni wieków człowiek nabył unikalną umiejętność opowiadania i opisywania otaczającego go świata, a także kreacji treści, które wybiegają poza obserwowalną rzeczywistość. Jest to wyjątkowa cecha, której brakuje nawet najbardziej rozbudowanym dużym modelom językowym AI. Roboty pozbawione są ludzkich emocji, przeżyć i doświadczeń, przez co ich treści wydają się jałowe, ogólnikowe i niezbyt oryginalne.

Dlatego też w dobie rozwoju generatywnej sztucznej inteligencji tak istotne staje się pojęcie humanizacji treści. Polega ona na swoistym odzyskaniu jakości, jaką cechują się teksty tworzone w całości przez człowieka. Nowoczesna humanizacja ma na celu nawiązanie, a właściwie odzyskanie relacji na linii autor-czytelnik.

W tym miejscu warto wspomnieć o wystąpieniu TED Ilony Stengel. Podkreśla ona, że nauka to nie tylko fakty, logika i zmierzanie do konkretnych wniosków. Za teksty akademickie odpowiadają ludzie, którzy charakteryzują się emocjami, a te wraz z logiką tworzą skuteczny tandem.

Humanizacja treści połączona z ludzką kreatywnością może stać się zatem motorem napędowym dla nowych odkryć oraz innowacji. Nic dziwnego, że niektóre czasopisma już teraz podkreślają potencjalne zagrożenia wynikające z szerokiego wykorzystania AI podczas pisania manuskryptów. Czas pokaże, dokąd zaprowadzą nas aktualne trendy w piśmiennictwie akademickim.

Jak sztuczna inteligencja wykrywa plagiat i udział AI w tekście – podsumowanie

Praktyka pokazuje, że rewolucja AI ma też swoje dobre strony, które ujawniają się w powstawaniu narzędzi do wykrywania plagiatu oraz treści napisanych przez LLM-y. Duże modele językowe oraz generatywna sztuczna inteligencja to innowacje, z których należy korzystać w rozważny sposób. Tym bardziej że rośnie znaczenie powrotu do piśmiennictwa całkowicie tworzonego przez człowieka.

Tematyka AI nie przestaje jednak zaskakiwać, do czego wrócimy w kolejnych wpisach na blogu Biolingual.

Bibliografia

https://www.scribbr.com/plagiarism/how-do-plagiarism-checkers-work

https://arxiv.org/pdf/2404.01268

https://www.zdnet.com/article/how-do-ai-checkers-work

https://www.entrepreneur.com/leadership/heres-why-we-need-to-humanize-content-now/396581

https://www.nature.com/articles/d41586-023-03144-w