Gigantyczny GPT-3 OpenAI wskazuje na granice modeli językowych dla sztucznej inteligencji

Niespełna rok temu OpenAI, firma sztucznej inteligencji z siedzibą w San Francisco, zaskoczyła świat, pokazując spektakularny skok w tym, co wydawało się być mocą komputerów do formułowania zdań w naturalnym języku oraz rozwiązywania pytań, takich jak uzupełnienie zdania i formułowanie długich fragmentów tekstu, które ludzie uznali za dość ludzkie.

Najnowsza praca tego zespołu pokazuje, jak myślenie OpenAI dojrzewa pod pewnymi względami. GPT-3, najnowsza kreacja, pojawiła się w zeszłym tygodniu, wyposażona w więcej funkcji i dodatków, stworzona przez tych samych autorów co poprzednia wersja, w tym Aleca Radforda i Ilię Sutskevera, razem z wieloma dodatkowymi współpracownikami, w tym naukowcami z Uniwersytetu Johns Hopkinsa.

To teraz jest prawdziwie monstrualnym modelem językowym, jak to się nazywa, pochłaniającym dwie lub dwie rzędy wielkości więcej tekstu niż jego poprzednik.

Ale w ramach tego wielkiego-są-lepsze sztuczki, zespół OpenAI zdaje się zbliżać do pewnych głębszych prawd, tak jak Dr. David Bowman zbliżył się do granic znanego pod koniec filmu 2001.

W zagadkowym zakończeniu 72-stronicowej pracy Językowe modele są uczącymi się w krótkim czasie, opublikowanej w zeszłym tygodniu na serwerze arXiv przed drukiem, znajduje się dość uderzające dostrzeżenie.

"Większym podstawowym ograniczeniem ogólnego podejścia opisanego w tym artykule - skalowania dowolnego modelu podobnego do LM, czy to autoregresywnego czy dwukierunkowego - jest to, że w końcu może napotkać (lub już napotykać) ograniczenia celu przetrenowania", piszą autorzy.

To, co autorzy mają na myśli, to to, że budowanie sieci neuronowej, która tylko przewiduje prawdopodobieństwa następnego słowa w dowolnym zdaniu lub frazie, może mieć swoje ograniczenia. To, że jest ona coraz bardziej potężna i wypełniona coraz większą ilością tekstu, może nie przynieść lepszych rezultatów. To znaczące uznanie w ramach artykułu, który głównie celebruje osiągnięcie w rzucaniu większej mocy obliczeniowej na problem.

Aby zrozumieć, dlaczego wniosek autorów jest tak istotny, należy rozważyć, jak doszliśmy do tego punktu. Historia prac OpenAI nad językiem była częścią historii systematycznego postępu jednego rodzaju podejścia, z coraz większym sukcesem, w miarę jak technologia stawała się coraz większa i większa.

Oryginalny GPT oraz GPT-2 są obiema adaptacjami tego, co znane jest jako Transformer, wynalazek opracowany w Google w 2017 roku. Transformer wykorzystuje funkcję o nazwie uwaga, aby obliczyć prawdopodobieństwo wystąpienia słowa w kontekście innych słów. OpenAI wzbudziło kontrowersje rok temu, gdy poinformowało, że nie udostępni kodu źródłowego największej wersji GPT-2, ponieważ – jak twierdziło – taki kod mógłby trafić w niepowołane ręce i być używany do wprowadzania ludzi w błąd za pomocą fałszywych informacji.

Nowy artykuł podnosi GPT na kolejny poziom, czyniąc go jeszcze większym. Największą wersją GPT-2, która nie została opublikowana w formie źródłowej, miała 1,5 miliarda parametrów. GPT-3 ma 175 miliardów parametrów. Parametr to obliczenie w sieci neuronowej, które nadaje większą lub mniejszą wagę pewnemu aspektowi danych, aby nadać temu aspektowi większe lub mniejsze znaczenie w ogólnym obliczeniu danych. To właśnie te wagi nadają kształt danym i dają sieci neuronowej nauczony perspektywę na temat danych.

Zwiększanie wag w ciągu czasu doprowadziło do zdumiewających wyników testów benchmarkowych przez rodzinę programów GPT oraz inne duże pochodne Transformerów, takie jak BERT od Google, które okazały się konsekwentnie imponujące.

Nie ma znaczenia, że wiele osób zauważyło, że żaden z tych modeli językowych nie wydaje się naprawdę rozumieć języka w sensowny sposób. Świetnie sobie radzą z testami, i to się liczy.

Najnowsza wersja ponownie pokazuje postęp ilościowy. Podobnie jak GPT-2 i inne programy oparte na Transformerze, GPT-3 jest szkolony na zbiorze danych Common Crawl, korpusie prawie biliona słów tekstów pobranych z sieci. "Zbiór danych i rozmiar modelu są około dwóch rzędów wielkości większe niż te używane dla GPT-2" - piszą autorzy.

GPT-3 z 175 miliardami parametrów ma zdolność osiągnięcia tego, co autorzy opisują jako "metauczenie". Metauczenie oznacza, że sieć neuronowa GPT nie jest ponownie uczona wykonywania zadania, takiego jak uzupełnienie zdania. Podając przykład zadania, takiego jak niekompletne zdanie, a następnie uzupełnione zdanie, GPT-3 będzie kontynuować uzupełnianie dowolnego niekompletnego zdania, które otrzyma.

GPT-3 jest w stanie nauczyć się jak wykonywać zadanie przy pomocy jednego promptu, lepiej, w niektórych przypadkach, niż wersje Transformera, które zostały dopasowane do wykonywania tylko tego zadania. Dlatego też, GPT-3 to tryumf posiadający uniwersalność. Wystarczy dostarczyć mu ogromną liczbę tekstów aż jego wagi będą idealne, i może następnie wykonywać zadania dość dobrze, bez dalszego rozwoju.

To jest miejsce, w którym historia kończy się uderzającym zakończeniem w nowym artykule. Po wymienieniu imponujących wyników GPT-3 w zadaniach językowych, od uzupełniania zdań, przez wnioskowanie o logicznym zakresie wypowiedzi, aż do tłumaczenia między językami, autorzy zwracają uwagę na ograniczenia.

"Pomimo mocnych ulepszeń ilościowych i jakościowych w przypadku GPT-3, szczególnie w porównaniu do swojego bezpośredniego poprzednika GPT-2, nadal ma zauważalne słabości."

Te słabości obejmują brak zdolności do osiągnięcia znaczącej dokładności w tzw. Adversarial NLI. NLI, czyli wnioskowanie na podstawie języka naturalnego, to test, w którym program musi określić związek między dwoma zdaniami. Badacze z Facebooka i University of North Carolina wprowadzili wersję adwersarialną, w której ludzie tworzą pary zdań, które są trudne do rozwiązania przez komputer.

GPT-3 robi "niewiele lepiej niż losowo" w przypadku takich zadaniach jak Adversarial NLI, piszą autorzy. Co gorsza, mimo zwiększenia mocy obliczeniowej naszego systemu do 175 miliardów wag, autorzy nie są do końca pewni, dlaczego nie radzą sobie dobrze w niektórych zadaniach.

To właśnie wtedy dochodzą do wniosku, cytowanego powyżej, że możliwe, iż jedynie karmienie olbrzymiego korpusu tekstu gigantycznemu mechanizmowi nie jest ostateczną odpowiedzią.

Jeszcze bardziej zaskakującym jest następne spostrzeżenie. Cała praktyka próbowania przewidywania tego, co stanie się z językiem, może być niewłaściwe podejście, piszą autorzy. Może mają złe celowanie.

"Z samoszkolnymi celami, specyfikacja zadania opiera się na wprowadzeniu pożądanego zadania w problem predykcyjny" - piszą "podczas gdy ostatecznie przydatne systemy językowe (na przykład asystenci wirtualni) mogą być lepiej postrzegane jako podejmowanie działań skierowanych na cel niż tylko dokonywanie predykcji."

Autorzy pozostawiają na inną okazję określenie, jak podejdą do tej dość fascynującej potencjalnej nowej drogi.

Mimo realizacji, że większy może niekoniecznie oznaczać lepszy rezultat, ulepszone wyniki GPT-3 w wielu zadaniach prawdopodobnie podsycają, a nie tłumią, pragnienie posiadania coraz większych sieci neuronowych. Z 175 miliardami parametrów, GPT-3 jest królem dużych sieci neuronowych, przynajmniej na chwilę obecną. Prezentacja w kwietniu przez firmę Tenstorrent, zajmującą się układami AI, opisywała przyszłe sieci neuronowe o ponad bilionie parametrów.

Dla dużej części społeczności uczenia maszynowego, coraz większe modele językowe będą pozostawać na czele badań.

Gigantyczny GPT-3 OpenAI sugeruje ograniczenia modeli językowych dla sztucznej inteligencji

Powiązane artykuły