Jak działa znak wodny ChatGPT i dlaczego można go pokonać

ChatGPT firmy OpenAI wprowadził sposób automatycznego tworzenia treści, ale plany wprowadzenia funkcji znaku wodnego, aby ułatwić wykrycie, denerwują niektórych ludzi. Tak działa znak wodny ChatGPT i dlaczego może istnieć sposób na jego pokonanie.

ChatGPT to niesamowite narzędzie, które wydawcy online, partnerzy i specjaliści SEO jednocześnie kochają i obawiają się.

Niektórzy marketerzy go uwielbiają, ponieważ odkrywają nowe sposoby wykorzystania go do generowania podsumowań treści, konspektów i złożonych artykułów.

Wydawcy internetowi obawiają się, że treści AI zaleją wyniki wyszukiwania, wypierając artykuły eksperckie pisane przez ludzi.

W związku z tym z niepokojem i nadzieją oczekuje się wiadomości o funkcji znaku wodnego, która odblokowuje wykrywanie treści autorstwa ChatGPT.

Kryptograficzny znak wodny

Znak wodny to półprzezroczysty znak (logo lub tekst) osadzony na obrazie. Znak wodny sygnalizuje, kto jest oryginalnym autorem pracy.

Jest to głównie widoczne na zdjęciach i coraz częściej na filmach.

Znak wodny tekstu w ChatGPT polega na kryptografii w postaci osadzania wzoru słów, liter i znaków interpunkcyjnych w postaci tajnego kodu.

Scott Aaronson i znak wodny ChatGPT

Wpływowy informatyk Scott Aaronson został zatrudniony przez OpenAI w czerwcu 2022 r. do pracy nad bezpieczeństwem i wyrównaniem sztucznej inteligencji.

Bezpieczeństwo sztucznej inteligencji to dziedzina badań zajmująca się badaniem sposobów, w jakie sztuczna inteligencja może szkodzić ludziom, oraz tworzeniem sposobów zapobiegania tego rodzaju negatywnym zakłóceniom.

Czasopismo naukowe Distill, którego autorzy są związani z OpenAI, definiuje AI Safety w następujący sposób:

„Celem długoterminowego bezpieczeństwa sztucznej inteligencji (AI) jest zapewnienie, że zaawansowane systemy AI są niezawodnie dostosowane do ludzkich wartości – że niezawodnie robią rzeczy, których ludzie od nich oczekują”.

AI Alignment to dziedzina sztucznej inteligencji zajmująca się upewnianiem się, że AI jest zgodna z zamierzonymi celami.

Duży model językowy (LLM), taki jak ChatGPT, może być używany w sposób, który może być sprzeczny z celami AI Alignment określonymi przez OpenAI, czyli tworzenie sztucznej inteligencji przynoszącej korzyści ludzkości.

W związku z tym powodem wprowadzenia znaku wodnego jest zapobieganie niewłaściwemu wykorzystaniu sztucznej inteligencji w sposób, który szkodzi ludzkości.

Aaronson wyjaśnił powód nałożenia znaku wodnego na wyjście ChatGPT:

„Może to być oczywiście pomocne w zapobieganiu akademickim plagiatom, ale także na przykład masowemu generowaniu propagandy…”

Jak działa znak wodny ChatGPT?

Znak wodny ChatGPT to system, który osadza wzorzec statystyczny, kod, w doborze słów, a nawet znaków interpunkcyjnych.

Treści tworzone przez sztuczną inteligencję są generowane z dość przewidywalnym wzorcem doboru słów.

Słowa pisane przez ludzi i sztuczną inteligencję są zgodne ze statystycznym wzorcem.

Zmiana wzoru słów używanych w generowanych treściach jest sposobem na „znak wodny” tekstu, aby ułatwić systemowi wykrycie, czy jest to produkt generatora tekstu AI.

Sztuczka, która sprawia, że znaki wodne treści AI są niewykrywalne, polega na tym, że rozmieszczenie słów nadal ma losowy wygląd podobny do normalnego tekstu generowanego przez AI.

Nazywa się to pseudolosowym rozkładem słów.

Pseudolosowość to statystycznie losowa seria słów lub liczb, które w rzeczywistości nie są przypadkowe.

Znak wodny ChatGPT nie jest obecnie używany. Jednak Scott Aaronson z OpenAI jest zarejestrowany, stwierdzając, że jest to planowane.

W tej chwili ChatGPT jest w wersji zapoznawczej, co pozwala OpenAI wykryć „niewspółosiowość” poprzez rzeczywiste użycie.

Przypuszczalnie znak wodny może zostać wprowadzony w ostatecznej wersji ChatGPT lub wcześniej.

Scott Aaronson napisał o tym, jak działa znak wodny:

„Do tej pory moim głównym projektem było narzędzie do statystycznego znakowania wodnego wyników modelu tekstowego, takiego jak GPT.
Zasadniczo, ilekroć GPT generuje jakiś długi tekst, chcemy, aby w doborze słów był niezauważalny tajny sygnał, którego można użyć, aby później udowodnić, że tak, to pochodzi od GPT”.

Aaronson wyjaśnił dalej, jak działa znak wodny ChatGPT. Ale najpierw ważne jest, aby zrozumieć koncepcję tokenizacji.

Tokenizacja to krok, który ma miejsce w przetwarzaniu języka naturalnego, w którym maszyna pobiera słowa z dokumentu i dzieli je na jednostki semantyczne, takie jak słowa i zdania.

Tokenizacja zmienia tekst w ustrukturyzowaną formę, którą można wykorzystać w uczeniu maszynowym.

Proces generowania tekstu polega na zgadywaniu przez maszynę, który token będzie następny na podstawie poprzedniego tokena.

Odbywa się to za pomocą funkcji matematycznej, która określa prawdopodobieństwo tego, jaki będzie następny token, co nazywa się rozkładem prawdopodobieństwa.

Jakie słowo jest następne, jest przewidywane, ale jest losowe.

Sam znak wodny jest tym, co Aaron opisuje jako pseudolosowy, ponieważ istnieje matematyczny powód, dla którego znajduje się tam określone słowo lub znak interpunkcyjny, ale nadal jest on statystycznie losowy.

Oto techniczne wyjaśnienie znaku wodnego GPT:

„W przypadku GPT każde wejście i wyjście to ciąg tokenów, którymi mogą być słowa, ale także znaki interpunkcyjne, części słów lub więcej – w sumie jest około 100 000 tokenów.
W swej istocie GPT stale generuje rozkład prawdopodobieństwa dla następnego tokena do wygenerowania, w zależności od ciągu poprzednich tokenów.
Po tym, jak sieć neuronowa wygeneruje dystrybucję, serwer OpenAI faktycznie próbkuje token zgodnie z tą dystrybucją — lub jakąś zmodyfikowaną wersją dystrybucji, w zależności od parametru zwanego „temperaturą”.
Dopóki jednak temperatura jest różna od zera, wybór następnego żetonu będzie zwykle nieco przypadkowy: można biegać w kółko z tym samym monitem i za każdym razem uzyskiwać inne zakończenie (tj. ciąg żetonów wyjściowych) .
Zatem do znaku wodnego, zamiast losowego wybierania kolejnego tokena, pomysł będzie polegał na wybraniu go pseudolosowo, przy użyciu pseudolosowej funkcji kryptograficznej, której klucz jest znany tylko OpenAI.”

Znak wodny wygląda całkowicie naturalnie dla osób czytających tekst, ponieważ dobór słów naśladuje przypadkowość wszystkich innych słów.

To jest wyjaśnienie techniczne:

„Aby to zilustrować, w szczególnym przypadku, gdy GPT miał kilka możliwych tokenów, które uznał za równie prawdopodobne, możesz po prostu wybrać dowolny token maksymalizujący g. Dla kogoś, kto nie znał klucza, wybór wyglądałby na jednolicie losowy, ale ktoś, kto znał klucz, mógłby później zsumować g po wszystkich n-gramach i zobaczyć, że jest on nienormalnie duży”.

Znak wodny to rozwiązanie stawiające na pierwszym miejscu prywatność

Widziałem dyskusje w mediach społecznościowych, w których niektórzy sugerowali, że OpenAI może rejestrować każdy generowany przez siebie wynik i wykorzystywać go do wykrywania.

Scott Aaronson potwierdza, że OpenAI może to zrobić, ale stwarza to problem prywatności. Możliwym wyjątkiem jest sytuacja organów ścigania, której nie rozwinął.

Jak wykryć znak wodny ChatGPT lub GPT

Coś interesującego, co wydaje się jeszcze mało znane, polega na tym, że Scott Aaronson zauważył, że istnieje sposób na pokonanie znaku wodnego.

Nie powiedział, że można pokonać znak wodny, powiedział, że można go pokonać.

„Teraz wszystko to można pokonać przy wystarczającym wysiłku.
Na przykład, jeśli użyłeś innej sztucznej inteligencji do sparafrazowania danych wyjściowych GPT – cóż, w porządku, nie będziemy w stanie tego wykryć”.

Wygląda na to, że znak wodny można pokonać, przynajmniej od listopada, kiedy padły powyższe stwierdzenia.

Nic nie wskazuje na to, że znak wodny jest obecnie używany. Ale kiedy wejdzie do użytku, może nie być wiadomo, czy ta luka została zamknięta.

Cytat

Przeczytaj wpis na blogu Scotta Aaronsona tutaj.