Czym jest GPT-3? Wszystko, co Twoja firma powinna wiedzieć o przełomowym programie językowym AI OpenAI

GPT-3 to program komputerowy stworzony przez prywatną firmę startupową OpenAI z San Francisco. Jest to gigantyczna sieć neuronowa, która zatem należy do segmentu uczenia głębokiego w ramach uczenia maszynowego, będącego jednym z obszarów nauki informatyki znanym jako sztuczna inteligencja, czyli AI. Program jest lepszy od wszystkich poprzednich w tworzeniu linii tekstu, które brzmią tak, jakby mogły zostać napisane przez człowieka.

Powodem, dla którego taki przełom może być przydatny dla firm, jest dużo potencjału do automatyzacji zadań. GPT-3 może odpowiadać na dowolny tekst wpisany przez osobę na komputerze nowym tekstem odpowiednim do kontekstu. Na przykład, wpisz pełne zdanie w języku angielskim w okienko wyszukiwania, a bardziej prawdopodobne jest otrzymanie odpowiedzi w postaci pełnych zdań, które są istotne. Oznacza to, że GPT-3 potencjalnie może wzmocnić ludzki wysiłek w wielu różnych sytuacjach, od pytań i odpowiedzi w obsłudze klienta, po poszukiwanie dokumentów due diligence do generowania raportów.

Zobacz poniższy krótki przykład tego, co osoba wpisuje do komputera, i jak GPT-3 wysyła odpowiedź:

Wprowadzone przez użytkownika: Q: Kto zagrał Tess w dotkniętych przez anioła?

GPT-3 wygenerowane uzupełnienie: A: Delloreese Patricia Early (6 lipca 1931 { 19 listopada 2017), znana zawodowo jako Della Reese

Aktualnie program jest dostępny w prywatnej becie, na którą można zapisać się na liście oczekujących. Udostępnia go OpenAI jako interfejs API dostępny przez chmurę, a firmy, które uzyskały dostęp, opracowały kilka intrygujących aplikacji, wykorzystujących generowanie tekstu w celu usprawnienia różnego rodzaju programów, począwszy od prostego odpowiadania na pytania, aż po tworzenie kodu programistycznego.

Wraz z potencjałem automatyzacji pojawiają się również wielkie wady. GPT-3 wymaga dużej wydajności obliczeniowej, co sprawia, że większość firm nie jest w stanie go wykorzystać w praktyce na własnej infrastrukturze. Jego generowany tekst może być imponujący na pierwszy rzut oka, ale dłuższe kompozycje często stają się bezsensowne. Ponadto, istnieje duże ryzyko wzmacniania uprzedzeń, w tym rasizmu i seksizmu.

JAK DZIAŁA GPT-3?

GPT-3 to przykład tego, co nazywamy modelem językowym, który jest konkretnym rodzajem programu statystycznego. W tym przypadku został stworzony jako sieć neuronowa.

Nazwa GPT-3 to skrót od "generatywnego treningu," którego to jest trzecia wersja do tej pory. Jest generatywny, ponieważ w przeciwieństwie do innych sieci neuronowych, które wypływają z wynikiem numerycznym lub odpowiedzią tak lub nie, GPT-3 może generować długie sekwencje oryginalnego tekstu jako wynik. Jest wytrenowany przedprezentacyjnie w sensie, że nie został zbudowany z żadną wiedzą dziedzinową, chociaż potrafi wykonywać zadania specyficzne dla dziedziny, takie jak tłumaczenie obcojęzyczne.

Językowy model, w przypadku GPT-3, to program, który oblicza, jak prawdopodobne jest wystąpienie jednego słowa w tekście, biorąc pod uwagę inne słowa w tekście. To nazywa się warunkowym prawdopodobieństwem słów.

Na przykład, w zdaniu Chciałem zrobić omlet, więc poszedłem do lodówki i wyjąłem trochę ____, luka może zostać wypełniona dowolnym słowem, nawet nonsensownym, z uwagi na nieskończone możliwości komponowania języka. Ale słowo "jajka" prawdopodobnie uzyskuje wysokie oceny jako wypełnienie tej luki w większości normalnych tekstów, wyższe niż na przykład "słonie". Mówimy, że prawdopodobieństwo jajek w warunkach podanego tekstu jest wyższe niż prawdopodobieństwo słoni.

Kiedy rozwija się sieć neuronowa, w fazie treningowej, GPT-3 jest karmiony milionami próbek tekstu i konwertuje słowa na tzw. wektory, numeryczne reprezentacje. To jest forma kompresji danych. Następnie program próbuje rozpakować ten skompresowany tekst i przekształcić go z powrotem w poprawne zdanie. Zadanie kompresowania i dekompresowania rozwija dokładność programu w obliczaniu warunkowej prawdopodobieństwa słów.

Po przeszkoleniu modelu, czyli dokładnym wyliczeniu warunkowej prawdopodobieństwa dla miliardów słów, może on przewidzieć, jakie słowa następują, gdy jest pobudzony przez osobę wpisującą początkowe słowo lub słowa. Ta akcja przewidywania jest nazywana w uczeniu maszynowym wnioskowaniem.

To prowadzi do oszałamiającego efektu lustrzanego. Nie tylko pojawiają się prawdopodobne słowa, ale także odtwarzana jest tekstura i rytm gatunku lub forma pisania zadania, takiego jak zestawienie pytań i odpowiedzi. Na przykład, GPT-3 może otrzymać kilka nazwisk znanych poetów i próbki ich twórczości, następnie nazwisko innego poety i tylko tytuł wyimaginowanego wiersza, a GPT-3 wygeneruje nowy wiersz w sposób zgodny z rytmem i składnią poety, którego nazwisko zostało podane.

Rozważ następującą instancję GPT-3 tworzącą wiersz od podstaw, który jest trochę podobny do twórczości Wallace'a Stevensa, po dostarczeniu tytułów, imion i przykładów innych poetów i ich dzieł:

Ludzkie dostarczone dane: Miasto  autorstwa C. P. CAVAFY   PRZEKŁAD: EDMUND KEELEY [Tekst wiersza pominięty]

Wprowadzone przez człowieka dane: SOME TREES John Ashbery [Tekst wiersza pominięty]

Cień na drodze Wallace Stevens

GPT-3-generated completion : -------- Wygenerowany wiersz 1 --------    Muszą być cienie na drodze  Jeśli mam iść, muszę  Każdy krok zrobiony powoli i sam  Aby być gotowym  I muszę myśleć w liniach szarości  Mam mieć mętne myśli na przewodnika  Muszę patrzeć na niebieski i zielony  I nigdy nie pozwalać mojemu oku zapomnieć  Że kolor jest moim przyjacielem  A także musi mnie otaczać fiolet  Żółte słońce jest już tak nieinwazyjne  Jak niebieski śnieg  Który spada na każdego z nas. Muszę mieć  Mroczne myśli i niebieskie myśli, które idą ze mną  Jeśli w ogóle mam się oddalać.

Generowanie odpowiedzi oznacza, że GPT-3 może sięgać dalej niż tylko produkować tekst. Może wykonywać różnego rodzaju testy, w tym testy rozumowania, które obejmują odpowiedzi w języku naturalnym. Jeśli na przykład GPT-3 otrzyma esej na temat stawek czynszu za nieruchomości w Manhattanie, a także stwierdzenie podsumowujące tekst, takie jak "Manhattan jest tani", oraz pytanie "prawda czy fałsz?", GPT-3 odpowiedzi na całą tę podpowiedź będzie słowem "fałsz", ponieważ stwierdzenie nie zgadza się z argumentem eseju.

Człowiek dostarczone dane: Trend ku niższym czynom może wydawać się zaskakujący, biorąc pod uwagę, że niektóre społeczności w Nowym Jorku ubolewają nad utratą ulubionych lokalnych firm z powodu wysokich czynszów. Ale mimo ostatniego osłabienia, dla wielu z tych sprzedawców nadal było zbyt gwałtowne podwyższenie w porównaniu do stawek czynszowych z końca lat 70., gdy podpisano ich umowy najmu. Oczywiście, ostatnie spadki cen nie oznaczają, że Manhattan jest tani.

Ludzkie dane wejściowe: pytanie: Manhattan jest tani. prawda, fałsz, czy żadne z nich?

Wprowadzone przez człowieka dane: odpowiedź:

GPT-3-generated completion : false

Zdolność GPT-3 do reagowania w sposób zgodny z przykładowym zadaniem, włączając formularze, z którymi nigdy wcześniej nie miała do czynienia, sprawia, że jest to tzw. "few-shot" model językowy. Zamiast być intensywnie dostosowywana, lub "trenowana", jak to się nazywa, do danego zadania, GPT-3 posiada już tak dużo informacji na temat różnych sposobów łączenia słów, że można jej podać tylko kilka przykładów zadania, co nazywa się krokiem dostrajania, i zyskuje zdolność do wykonywania również tego nowego zadania.

Zdolność do odbijania naturalnych stylów językowych oraz zdolność zdobywania wysokich wyników w testach opartych na języku może dawać wrażenie, że GPT-3 zbliża się do pewnego rodzaju ludzkiej sprawności językowej. Jak zobaczymy, tak nie jest.

Więcej szczegółów technicznych można znaleźć w formalnym artykule GPT-3 opublikowanym przez naukowców z OpenAI.

CZEGO MOŻE DOKONAĆ GPT-3?

OpenAI stał się teraz równie sławny -- lub niesławny -- ze względu na praktyki udostępniania swojego kodu, co na sam kod. Kiedy firma ujawniła poprzednika GPT-2, w dniu Walentynek w 2019 roku, początkowo nie zamierzała udostępniać publicznie najbardziej zdolnej wersji, argumentując, że jest zbyt niebezpieczna, aby została wypuszczona na wolność z powodu ryzyka masowej produkcji fałszywych i mylących tekstów. Później OpenAI udostępniło ją do pobrania.

Tym razem OpenAI nie udostępnia żadnych plików do pobrania. Zamiast tego, włączono punkt końcowy API w chmurze, co czyni GPT-3 ofertą w postaci usługi (SaaS). (Można to porównać do LMaaS, usługi modelu językowego). Powodem, według OpenAI, jest zarówno ograniczenie używania GPT-3 przez osoby nieuczciwe, jak i zarabianie pieniędzy.

"W otwartym kodzie nie ma przycisku 'Cofnij'", powiedział OpenAI dla ZDNet przez rzecznika prasowego.

"Umożliwienie dostępu do GPT-3 za pośrednictwem interfejsu API umożliwia nam bezpieczne kontrolowanie jego użytkowania i ewentualne wycofanie dostępu, jeśli zajdzie taka potrzeba."

Obecnie usługa OpenAI API jest dostępna tylko dla zaakceptowanych stron; istnieje lista oczekiwania, do której można dołączyć, aby uzyskać dostęp.

"Obecnie API jest w kontrolowanej becie, dostępnej tylko dla niewielkiej liczby programistów, którzy zgłosili pomysł na coś, co chcieliby wdrożyć przy użyciu tego API" - poinformował OpenAI dla ZDNet.

Również: Wydano 'niebezpieczny' tekstowy generator AI firmy OpenAI: Ludzie uważają, że słowa są 'przekonujące'

Są fascynujące przykłady tego, co można zrobić dzięki firmom z programu beta. Sapling, firma wspierana przez fundusz venture Y Combinator, oferuje program, który działa na bazie oprogramowania CRM. Gdy przedstawiciel obsługuje przychodzące zgłoszenie pomocy, na przykład za pośrednictwem e-maila, program korzysta z GPT-3, aby zaproponować całe zdanie jako odpowiedź spośród najbardziej prawdopodobnych odpowiedzi.

Twórca gier Latitude korzysta z GPT-3, aby ulepszyć swoją tekstową grę przygodową, AI Dungeon. Zazwyczaj, gra przygodowa wymagałaby skomplikowanego drzewa decyzyjnego do zeskanowania wielu możliwych ścieżek przez grę. Zamiast tego, GPT-3 może dynamicznie generować zmieniający się stan rozgrywki w odpowiedzi na wpisywane przez użytkowników akcje.

Już teraz automatyzacja zadań wychodzi poza naturalny język, aż do generowania kodu komputerowego. Kod to język, a GPT-3 potrafi wnioskować o najbardziej prawdopodobnej składni operatorów i operandów w różnych językach programowania, oraz potrafi generować sekwencje, które mogą być skompilowane i uruchomione.

Szczególnie wyraźnym przykładem było odkrycie na Twitterze, pochodzące od startupu zajmującego się tworzeniem aplikacji o nazwie Debuild. Szef firmy, Sharif Shameem, był w stanie stworzyć program, w którym można opisywać interfejs oprogramowania za pomocą prostego języka angielskiego, a GPT-3 odpowiada kodem komputerowym, wykorzystując składnię rozszerzenia JSX dla języka JavaScript. Ten kod tworzy interfejs użytkownika zgodny z opisem.

To jest niesamowite. Dzięki GPT-3 stworzyłem generator układu, gdzie wystarczy opisać dowolny układ, a on wygeneruje dla ciebie kod JSX. C O za pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 lipca 2020

Shameem pokazał, że opisując UI z wieloma przyciskami, za pomocą jednego zdania można opisać cały program, choćby prosty, taki jak obliczanie podstawowych operacji arytmetycznych i wyświetlanie wyniku, a GPT-3 wygeneruje dla niego cały kod i pokazuje działającą aplikację.

Właśnie zbudowałem *działającą* aplikację React, opisując to, czego chciałem GPT-3. Wciąż jestem pod wrażeniem. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 lipca 2020

OpenAI otrzymał "dziesiątki tysięcy zgłoszeń o dostęp do API do tej pory i ostrożnie udziela dostępu, gdyż dowiadujemy się, co te modele mogą osiągnąć w prawdziwym świecie" – poinformowała firma ZDNet. "W związku z tym lista oczekujących może być długa."

Ceny eventualnej usługi komercyjnej są jeszcze do ustalenia. Na pytanie, kiedy program wyjdzie z fazy beta, OpenAI odpowiedziało ZDNet: "nie w najbliższym czasie".

"Wprowadzenie tak potężnego modelu oznacza, że musimy działać powoli i rozważnie, z uwzględnieniem jego wpływu na firmy, branże i ludzi" - powiedziała firma. "Format interfejsu API pozwala nam analizować i moderować odpowiednio jego zastosowania, ale nie spieszymy się, aby uczynić go ogólnie dostępnym, ze względu na jego ograniczenia."

Jeśli nie możesz doczekać się na liście oczekujących na wersję beta, możesz tymczasem pobrać poprzednią wersję, GPT-2, która może być uruchomiona na laptopie za pomocą instalacji Dockera. Kod źródłowy jest zamieszczony w tym samym repozytorium na Githubie, w formacie Pythona dla frameworka TensorFlow. Oczywiście, nie uzyskasz takich samych rezultatów jak w przypadku GPT-3, ale to sposób na rozpoczęcie zapoznawania się z tym narzędziem.

Pamiętaj również, że na bieżąco pojawiają się nowe modele językowe o podobnych zdolnościach, z których niektóre mogą być wystarczające dla Twoich celów. Na przykład Google niedawno wydał wersję swojego modelu językowego BERT, nazwaną LaBSE, która wykazuje wyraźną poprawę w tłumaczeniu języka. Jest on dostępny do pobrania z TensorFlow Hub.

Także: Potężny GPT-3 OpenAI zdradza granice modeli językowych dla sztucznej inteligencji

JAKI JEST HISTORYCZNY KONTEKST GPT-3?

GPT-3, zaprezentowany w maju, jest trzecią wersją programu, który po raz pierwszy został wprowadzony przez OpenAI w 2018 roku, a w zeszłym roku został zastąpiony przez GPT-2. Te trzy programy są przykładem szybkiej innowacji w dziedzinie modeli językowych, dzięki dwóm głównym postępom, które miały miejsce w 2015 roku.

Pierwszym krokiem naprzód było zastosowanie tego, co nazywane jest uwagą. Naukowiec ds. AI Yoshua Bengio i jego koledzy z instytutu AI Mila w Montrealu zauważyli, że modele językowe, gdy kompresowały zdanie w języku angielskim, a następnie je dekompresowały, używały wektora o ustalonej długości. Każde zdanie było wciskane w wektor o tym samym rozmiarze, niezależnie od długości zdania.

Bengio i jego zespół doszli do wniosku, że ten sztywny podejście stanowiło wąskie gardło. Model językowy powinien móc przeszukiwać wiele wektorów o różnych długościach, aby znaleźć słowa, które optymalizują prawdopodobieństwo warunkowe. Wprowadzili więc sposób pozwalający sieci neuronowej elastycznie kompresować słowa do wektorów o różnych rozmiarach, a także pozwolić programowi elastycznie przeszukiwać te wektory w poszukiwaniu istotnego kontekstu. Nazwali to uwagą.

Uwaga stała się podstawowym elementem w modelach językowych. Była wykorzystywana przez naukowców z Google dwa lata później do stworzenia programu modelu językowego o nazwie Transformer. Transformer osiągnął niesamowite wyniki na testach manipulacji językiem. Stał się de facto modelem językowym i został wykorzystany przez Google do stworzenia znanego jako BERT, kolejnego bardzo udanego modelu językowego. Transformer stał się również podstawą GPT-1.

Uwolniony od konieczności sztywnego manipulowania wektorem o stałym rozmiarze, Transformer i jego potomkowie mogą swobodnie poruszać się po różnych częściach danego tekstu i znajdować warunkowe zależności, które obejmują znacznie większy kontekst.

Ta wolność stworzyła podstawy dla kolejnej innowacji, która nadeszła w 2015 roku i była jeszcze bardziej istotna dla pracy OpenAI, znana jako uczenie nienadzorowane.

Dotychczasowa większość modeli językowych skupiała się na uczeniu nadzorowanym z wykorzystaniem tzw. oznaczonego zestawu danych. Jednak dla sieci neuronowych, oprócz wejścia, dostarcza się również przykładowe wyjście, jako wersję docelową odpowiedzi. Dlatego, jeśli zadaniem jest tłumaczenie, na wejściu może być zdanie w języku angielskim, a jako cel podaje się ręcznie stworzone tłumaczenie tego zdania na język francuski - te dwa zdania stanowią przykład oznaczony.

Próba sieci neuronowej w generowaniu tłumaczenia na język francuski byłaby porównywana do oficjalnego zdania francuskiego, a różnica między nimi to ilość błędów, które popełnia sieć neuronowa w swoich przewidywaniach, znane jako funkcja straty lub funkcja celu.

Faza treningowa ma na celu zniwelowanie błędu między sugerowanym wyjściem sieci neuronowej a docelowym wyjściem. Gdy ta różnica jest jak najmniejsza, funkcja celu została zoptymalizowana, a sieć neuronowa modelu językowego jest uważana za przeszkoloną.

Ale oznaczenie pożądanego wyniku może być problematyczne, ponieważ wymaga dużo kuracji danych, takich jak zebranie par przykładowych zdań przez ludzką ocenę, co jest czasochłonne i wymaga dużo zasobów. Andrew Dai i Quoc Le z Google postulowali, że można zmniejszyć potrzebną liczbę znakowanych danych, jeśli model językowy zostanie najpierw przeszkolony w sposób niadzyscyplinarny.

Zamiast otrzymywać parę zdań, sieć otrzymywała tylko pojedyncze zdania i musiała je skompresować do wektora, a następnie decompreować z powrotem do oryginalnego zdania. Odbicie stało się funkcją straty do optymalizacji. Stwierdzono, że im więcej nieoznakowanych przykładów było kompresowanych i decompresowanych w ten sposób, tym więcej można było zastąpić wielu oznakowanych danych w zadaniach, takich jak tłumaczenie.

W 2018 roku zespół OpenAI połączył te dwa elementy: mechanizm uwagi, który rozejrzał się po wielu wektorach słów, opracowany przez Bengio i jego kolegów oraz nienadzorowane podejście wstępnego uczenia się Dai i Le, które połykało duże ilości tekstu, kompresowało go i dekompresowało w celu odtworzenia oryginalnego tekstu.

Wzięli zwykłego Transformatora i podali mu zawartość BookCorpus, bazy danych opracowanej przez Uniwersytet w Toronto i MIT, składającej się z ponad 7 000 opublikowanych tekstów książek, które razem wynoszą niemal milion słów, co daje łączny rozmiar 5 GB. GPT-1 został przeszkolony do kompresowania i dekompresowania tych książek.

Tak rozpoczęła się trzyletnia historia coraz większych zbiorów danych. Badacze z OpenAI, zakładając, że większa ilość danych sprawia, że model jest dokładniejszy, przekraczali granice tego, co program mógł przyswoić. Z GPT-2 odrzucili BookCorpus na rzecz własnego zestawu danych, składającego się z ośmiu milionów stron internetowych pobranych z linków wychodzących z Reddit, w sumie 40GB danych.

Trening GPT-3 jest jeszcze większy, składający się z popularnego zbioru danych CommonCrawl zawierającego strony internetowe z lat 2016-2019. Teoretyczna wartość tego zbioru to 45 TB skompresowanych danych tekstowych, chociaż OpenAI je poddane kuracji, usuwając duplikaty i poprawiając jakość. Ostateczna wersja to 570 GB danych. OpenAI uzupełniło go o kilka dodatkowych zbiorów danych różnego rodzaju, w tym dane z książek.

JAK GPT-3 ZALEŻY OD MOCY OBLICZENIOWEJ?

Z przybyciem GPT-1, 2 i 3, skala obliczeniowa stała się niezbędnym składnikiem postępu. Modele używają coraz większej mocy obliczeniowej, gdy są trenowane, aby osiągnąć lepsze wyniki.

Czym optymalizuje się sieć neuronową podczas treningu, to dostosowanie jej wag. Wagi, nazywane także parametrami, są macierzami, tablicami wierszy i kolumn, przez które mnoży się każdy wektor. Poprzez mnożenie, wiele wektorów słów lub fragmentów słów jest ważone bardziej lub mniej w ostatecznym wyniku, gdy sieć neuronowa jest dostrojona, aby zminimalizować błąd.

OpenAI odkryło, że aby osiągnąć dobre wyniki na coraz większych zbiorach danych, muszą dodawać coraz więcej wag.

Oryginalny Transformer od Google'a miał 110 milionów wag. GPT-1 kontynuował ten projekt. W przypadku GPT-2, liczba ta zwiększyła się do 1,5 miliarda wag. W przypadku GPT-3, liczba parametrów wzrosła do 175 miliardów, sprawiając że GPT-3 jest największą siecią neuronową, jaką świat kiedykolwiek widział.

Mnożenie to prosta rzecz, ale gdy trzeba pomnożyć 175 miliardów wag przez każdy bit danych wejściowych, pośród miliardów bajtów danych, staje się niezwykłym wyzwaniem dla równoległego przetwarzania komputerowego.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Już w 2018 roku, za sprawą GPT-1, OpenAI przesunęło granice praktycznego zastosowania obliczeń. Zwiększenie ilości danych wymagało zwiększenia ilości procesorów graficznych (GPU). Poprzednie modele językowe mieściły się w jednym GPU, ponieważ same modele były niewielkie. GPT-1 został wytrenowany przez miesiąc na równolegle działających ośmiu GPU.

Z GPT-3 OpenAI był nieco niejasny. Nie opisał dokładnej konfiguracji komputera użytej do treningu, poza tym że korzystał z klastra chipów Nvidia V100 działających na platformie Microsoft Azure. Firma opisała ogólnie zużycie mocy obliczeniowej, mówiąc że odpowiada ono wykonaniu biliona trylionów operacji na zmienno przecinkowych na sekundę przez 3 640 dni.

Producent komputerów i operator chmur Lambda Computing oszacował, że jednemu GPU zajęłoby to 355 lat pracy, co przy standardowej cenie instancji GPU w chmurze kosztowałoby 4,6 miliona dolarów. A to jeszcze nie wszystko. Aby przechować wszystkie wartości wag, potrzeba coraz większej ilości pamięci w miarę wzrastania liczby parametrów. 175 miliardów parametrów w GPT-3 wymaga 700 GB, czyli 10 razy więcej niż pamięć na jednym GPU.

To właśnie tego rodzaju ogromne zapotrzebowanie na moc napędza dziedzinę układów komputerowych. Spowodowało to wzrost cen akcji firmy Nvidia, dominującego dostawcy układów GPU do szkolenia sztucznej inteligencji, o prawie 5000% w ciągu ostatnich dziesięciu lat. Przyczyniło się to do powstania wielu startupów, które otrzymały finansowanie w wysokości setek milionów dolarów od inwestorów kapitałowych, takich jak Cerebras Systems, Graphcore czy Tachyum. Konkurencja będzie nadal kwitła tak długo, jak budowanie coraz większych modeli będzie trajektorią rozwoju tej dziedziny.

OpenAI wykonało własne badania na temat rosnącej potrzeby mocy komputerowej. Firma zauważyła już w 2018 roku, że liczba cykli obliczeniowych zużywanych przez największe modele szkoleniowe AI podwaja się co 3,4 miesiące od 2012 roku, jest to szybszy temp wzrostu niż w słynnym prawie Moore'a o wzroście tranzystorów w chipach. (Należy jednak zauważyć, że firma przeprowadziła również badania, które pokazują, że modele coraz większe są bardziej wydajne, jeśli weźmie się pod uwagę jednostkową podstawę, niż wcześniejsze sieci neuronowe, które wykonały te same zadania.)

Obecnie powstają modele, które używają ponad bilion parametrów, zgodnie z informacjami udzielonymi firmom pracującym nad tajnymi projektami dotyczącymi sztucznej inteligencji. To prawdopodobnie nie jest ograniczenie, o ile superwielkie firmy, takie jak Google, są skłonne poświęcić swoje ogromne centra danych na coraz większe modele. Większość naukowców zajmujących się sztuczną inteligencją zgadza się, że większe i większe modele staną się normą w uczeniu maszynowym na długi czas.

"Jeśli chodzi o wpływ na sztuczną inteligencję jako dziedzinę, najbardziej ekscytującą częścią GPT-3 jest to, że pokazuje, że nie zbliżyliśmy się nawet do granic skalowalności AI" - powiedział Kenny Daniel, CTO dostawcy narzędzi do zarządzania AI Algorithmia, dla ZDNet.

Ponadto, oprócz zwiększenia wykorzystania obliczeniowego, GPT-3 będzie jasno miało duży wpływ na przyspieszenie programowania i ogólnie na rozwój aplikacji. Przedstawienie przez Shameema programu JSX, który został zbudowany poprzez wpisanie po prostu zdania, to tylko wierzchołek góry lodowej.

JAKIE SĄ WADY GPT-3?

Pomimo ogromnego postępu w porównaniu do poprzedniej wersji, GPT-3 posiada wiele ograniczeń, jak sami autorzy wskazują. "Chociaż jako całość jakość jest wysoka, próbki GPT-3 czasami powtarzają się semantycznie na poziomie dokumentu i zaczynają tracić spójność w wystarczająco długich fragmentach" - zauważają w opublikowanym artykule.

Program również nie radzi sobie dobrze w przypadku wielu indywidualnych testów. "Konkretnie, GPT-3 ma trudności z pytaniami takiego rodzaju, jak 'Jeśli włożę ser do lodówki, czy się roztopi?' - opisują autorzy, mówiąc o tego rodzaju oczywistych rzeczach, które umykają GPT-3."

Po pojawieniu się GPT-3 było tak wiele ekscytacji, że CEO firmy, Sam Altman, publicznie powiedział ludziom, by powstrzymali swoje entuzjazmy.

"Hajp wokół GPT-3 jest zdecydowanie zbyt duży" - napisał Altman na Twitterze 19 lipca. "To imponujące (dzięki za miłe komplementy!), ale wciąż ma poważne słabości i czasami popełnia bardzo głupie błędy" - dodał. "Sztuczna inteligencja zmieni świat, ale GPT-3 to tylko wstępny wgląd. Mamy jeszcze wiele do zrozumienia."

Hype wokół GPT-3 jest zdecydowanie zbyt duży. Jest imponujący (dzięki za miłe komplementy!), ale nadal ma poważne słabości i czasami popełnia bardzo głupie błędy. Sztuczna inteligencja zmieni świat, ale GPT-3 to tylko bardzo wczesny wgląd. Nadal mamy wiele do zrozumienia.

— Sam Altman (@sama) 19 lipca 2020

Inni poza OpenAI również złożyli swoją własną weryfikację rzeczywistości. Doświadczony użytkownik kilku generacji GPT, Max Woolf, napisał na swoim osobistym blogu, że GPT-3 jest lepszy od swojego poprzednika, ale tylko w przeciętnym przypadku. Istnieje spektrum jakości generowanego tekstu, więc niektóre przykłady, z którymi się spotkasz, wydadzą się godne uwagi, a inne całkowicie niewystarczające. Woolf porównuje GPT-3 do Siri od Apple, która ma niepokojącą tendencję do wytwarzania śmieci w wielu przypadkach. (Esej Woolfa jest naprawdę interesujący i godny przeczytania w całości, aby dokładnie przeanalizować GPT-3.)

W rzeczywistości, im więcej przykładów GPT-3 się czyta, zwłaszcza długich fragmentów tekstu, tym większe jest prawdopodobieństwo, że początkowy entuzjazm zblednie. GPT-3 na dłuższym odcinku tends to lose the plot, jak się mówi. Bez względu na gatunek lub zadanie, jego tekstowe wyjście zaczyna stawać się monotonne i nużące, pojawiają się w nim wewnętrzne niekonsekwencje w narracji.

Niektórzy programiści, pomimo swojego entuzjazmu, skatalogowali wiele braków, takich jak nieudane próby generowania dowcipów dla taty (GPT-3). Na przykład, podając pytanie, "Co powiedziało jedno talerze do drugiego?", prawidłowym prześmiewczym odpowiedzią jest "Obiad stoi na mnie!". Ale GPT-3 może odpowiedzieć bez poczucia humoru, "Zanurz mnie!"

Przetłumaczony tekst: P. Co jedna talerz powiedziała drugiemu talerzowi?

GPT-3- wygenerowane ukończenie: A. Zanurz mnie!

Podczas gdy GPT-3 potrafi odpowiadać na domniemane pytania związane z zdrowym rozsądkiem, takie jak ilość oczu, jakie ma żyrafa, nie potrafi odrzucić bezsensownego pytania i zostaje wprowadzony w błąd, oferując bezsensowną odpowiedź. Zadane pytanie "Ile oczu ma moja stopa?" spowoduje, że GPT-3 będzie posłusznie odpowiadać "Moja stopa ma dwie oczy".

Jednym sposobem myślenia o całej tej przeciętności jest to, że osiągnięcie dobrych wyników dzięki GPT-3 w pewnym stopniu wymaga inwestycji w tworzenie skutecznych podpowiedzi. Niektóre podpowiedzi wymyślone przez człowieka skłonią program do lepszych rezultatów niż inne podpowiedzi. Jest to nowa wersja przysłowia "śmieci w śmieci, śmieci na wyjściu". Wygląda na to, że podpowiedzi mogą stać się nową dziedziną programowania, wymagającą zarówno sprytu, jak i wprawności.

Bias jest dużym czynnikiem, nie tylko w przypadku GPT-3, ale we wszystkich programach opierających się na rozkładzie warunkowym. Podstawowe podejście programu polega na oddawaniu dokładnie tego, co zostaje do niego wprowadzone, jak lustro. To może prowadzić do replikacji uprzedzeń w danych. W przypadku GPT-2 miała już miejsce naukowa dyskusja na temat dużych uprzedzeń.

Z GPT-3 naukowiec ds. sztucznej inteligencji Nvidia, Anima Anandkumar, zasygnalizowała, że nadal istnieje tendencja do wytwarzania stronniczego wyniku, w tym stronniczego wyniku zawierającego treści rasistowskie i seksistowskie.

Jestem zaniepokojony, że to zostało opublikowane bez odpowiedzialności za stronniczość. Ten model został wytrenowany na korpusie z @reddit, w którym panuje ogromne #rasizm i #seksizm. Pracowałem z tymi modelami i tekst, który wygenerowali, jest szokująco stronniczy. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar), 11 czerwca 2020

Zapytany o krytykę ze strony Anandkumara, OpenAI powiedziała ZDNet, "Tak jak we wszystkich coraz potężniejszych modelach generacyjnych, sprawiedliwość i nadużycia są naszymi obawami."

"Jest to jeden z powodów, dla których udostępniamy tę technologię za pomocą API i rozpoczynamy prywatną betę," powiedział OpenAI dla ZDNet. Firma zaznacza, że "nie będzie wspierać przypadków użycia, które uważamy za powodujące fizyczne lub psychiczne szkody dla ludzi, włączając, lecz nie ograniczając się do nękania, celowego wprowadzania w błąd, radykalizacji, astroturfingu lub spamu."

OpenAI poinformowało portal ZDNet, że korzysta z rodzaju gry wojennej "white hat, black hat" w celu wykrywania zagrożeń w programie:

Wdrożyliśmy to, co nazywamy "zespółem czerwonym", którego zadaniem jest ciągłe łamanie systemu filtracji treści, aby dowiedzieć się więcej na temat tego, jak i dlaczego model zwraca złe wyniki. Jego odpowiednikiem jest "zespół niebieski", którego zadaniem jest mierzenie i redukcja uprzedzeń.

Innym dużym problemem jest bardzo szeroka, o niskiej charakterystyce GPT-3, fakt że wzmacnia tylko najszerszą część krzywej prawdopodobieństwa warunkowego. Istnieje coś, co nazywa się długim ogonem, a czasem grubym ogonem, rozkładu prawdopodobieństwa. Są to mniej powszechne przypadki, które mogą stanowić najbardziej innowacyjne przykłady używania języka. Skupianie się na odzwierciedlaniu najbardziej rozpowszechnionego tekstu w społeczeństwie ryzykuje wypieranie kreatywności i eksploracji.

Na chwilę obecną, odpowiedzią OpenAI na ten problem jest ustawienie, którego można dostosować w GPT-3, nazywane wartością temperatury. Poprzez manipulowanie tym pokrętłem, można dostroić GPT-3 do wybierania mniej prawdopodobnych kombinacji słów i w ten sposób generować tekst, który jest być może bardziej nietypowy.

Większym zmartwieniem dla firmy jest brak możliwości dostosowania GPT-3 do danych specyficznych dla danej firmy. Bez możliwości dostosowania, trudno jest specjalizować GPT-3 dla danego obszaru przemysłowego. Może się zdarzyć, że każda firma korzystająca z usługi API będzie musiała dodatkowo poprawić tekst, aby stał się zastosowalny w określonym dziedzinie. Być może startupy, takie jak Sapling, powstaną w ekosystemie, będącym odpowiednikiem VAR-ów, które rozwiążą ten problem. Być może, ale to jeszcze pozostaje do zobaczenia.

Jeśli to jeszcze nie jest wystarczająco niepokojące, istnieje jeszcze jedna kwestia - jako usługa oparta na chmurze, GPT-3 jest czarną skrzynką. Oznacza to, że firmy korzystające z usługi nie mają pojęcia, w jaki sposób dochodzi ona do swoich wyników - szczególnie delikatną kwestią, gdy weźmie się pod uwagę problemy związane z uprzedzeniami. Ecosystem stron takich jak Sapling, które usprawniają GPT-3, może wprowadzać dalsze warstwy zaciemnienia jednocześnie usprawniając usługę.

Jako podsekcję kwestii czarnej skrzynki, GPT-3 w niektórych przypadkach może po prostu zapamiętywać to, czego nauczył się z internetu. To stwarza problemy z prawami autorskimi. Jeśli firma korzysta z wyników usługi API, które są chronione prawami autorskimi, wówczas może naruszać prawa autorskie innej podmiotu. Na pytanie dotyczące praw autorskich OpenAI powiedział, że prawa autorskie do tekstu generowanego przez GPT-3 "należą do użytkownika, a nie do OpenAI". Co to oznacza w praktyce, pozostaje do zobaczenia.

W tej chwili, największe praktyczne ograniczenie dotyczy skali wymaganej do szkolenia i uruchomienia GPT-3. OpenAI uznaje to w formalnym artykule. Autorzy piszą, że należy przeprowadzić prace mające na celu obliczenie, w jaki sposób koszty dużych modeli są amortyzowane w czasie, na podstawie wartości wyprodukowanych wyników.

Również: Nie, ta sztuczna inteligencja nie jest w stanie dokończyć twojego zdania

CZY GPT-3 NAPRAWDĘ SIĘ UCZY?

Z użyciem wąskiego znaczenia słowa, GPT-3 się uczy, w sensie że wagi jego parametrów są automatycznie dopasowywane poprzez przyswajanie danych treningowych, dzięki czemu model języka staje się lepszy niż wynikałoby to tylko z jego explicite zaimplementowanego programu. W tym sensie GPT-3 stanowi postęp w wieloletnim dążeniu do stworzenia komputera, który może nauczyć się funkcji, za pomocą której można transformować dane, bez konieczności tego, żeby człowiek ją explicite kodował.

Mając to na uwadze, można zapytać, czy maszyna jest naprawdę inteligentna czy naprawdę się uczy. Istnieje wiele sposobów na dyskusję na ten temat, ale casualowe refleksje sugerują, że wiele tego, co moglibyśmy nazwać ludzkim myśleniem, nie ma tu miejsca.

Rozważ, czy możliwe byłoby posiadanie w twoim mózgu liczbowych wyników określających jak wiele słów prawdopodobnie będziesz w stanie użyć w połączeniu ze sobą. Czy powiedziałbyś, że twoja umiejętność tworzenia wyrażeń, zdań, akapitów i całości tekstu jest zastanowiona? Prawdopodobnie powiedziałbyś, że jest to tylko kwestia statystyczna, a brakuje czegoś innego.

Porównania zostały wykonane między głębokim uczeniem a słynnym małpim Pawiem, Niemieckim koniem, którego mistrz prezentował publicznie jako zwierzę zdolne do wykonywania działań matematycznych kopytami. Później okazało się, że Hans reaguje na sygnały ciała od swojego mistrza aby stukać kopytem, i że bez tych sygnałów nie był w stanie wykonać tych czynności.

Podobnież, ludzka jakość GPT-3 ulega osłabieniu przy bliższym badaniu. Gdy GPT-3 poprawnie odpowiada na pytanie prawda/fałsz dotyczące esejów na temat nowojorskiej nieruchomości, nie dzieje się to dlatego, że program wie coś o nieruchomościach lub Nowym Jorku. Program przechowuje rozkład prawdopodobieństwa, który uchwycił stwierdzenia w tekstach oraz format pary zdanie-pytanie, i może je odbijać w swoim wyniku.

Hans nie wiedział nic o arytmetyce, choć, w obronie Hana, posiadał mimo to inteligencję. W przypadku sieci neuronowych krytycy powiedzą, że są tam tylko sztuczki, bez żadnego zdrowego rozsądku.

Niemniej jednak inteligencja i nauka mogą mieć wiele znaczeń, a w ciągu lat zmieniły się cele, jakie powinna mieć sztuczna inteligencja, jak zauważyła Pamela McCorduck, historyk tego obszaru. Niektórzy mogą argumentować, że program zdolny do obliczania prawdopodobieństw na podstawie ogromnych skupisk tekstów może być innym rodzajem inteligencji, być może obcą inteligencją, niezwiązaną z naszą własną. Wcześniejsze odrzucenie tego wydaje się przedwczesne.

Ponadto, sieci neuronowe odpowiedzialne za te prawdopodobieństwa warunkowe to nie tylko zwykłe programy statystyczne. Ich obliczenia są emergentną właściwością wielu równoczesnych operacji matematycznych, które odbywają się równolegle, jak strojenie wag parametrów. Jeżeli możliwe jest rozważenie innych form inteligencji, to takie emergentne właściwości jak rozproszone reprezentacje które kształtują się wewnątrz sieci neuronowych, mogą być jednym z miejsc, w których można je znaleźć.

JAK WYGLĄDA PRZYSZŁOŚĆ GPT-3?

Jedno wydaje się pewne: GPT-3 otworzył nowy rozdział w uczeniu maszynowym. Jego najbardziej charakterystyczną cechą jest jego uniwersalność. Jeszcze kilka lat temu, sieci neuronowe były tworzone przy użyciu funkcji dostosowanych do konkretnego zadania, takiego jak tłumaczenie czy odpowiadanie na pytania. Zbiory danych były dobierane tak, aby odzwierciedlać to zadanie. Natomiast GPT-3 nie posiada żadnych funkcji specyficznych dla zadania i nie wymaga specjalnego zbioru danych. Po prostu pochłania jak najwięcej tekstu z dowolnych źródeł i odwzorowuje go w swoim wyniku.

Irytująco, w obliczeniach warunkowego rozkładu prawdopodobieństwa dla tychże gigabajtów tekstu, pojawiła się funkcja, która może generować odpowiedzi konkurencyjne w różnych zadaniach. To zadziwiające zwycięstwo prostoty, które prawdopodobnie ma przed sobą wiele lat sukcesów.

Nawet ta ogólna zasada, jednak, może osiągnąć swoje ograniczenie. Już autorzy GPT-3 zauważają na końcu swojej pracy, że kierunek wstępnego szkolenia może w końcu się wyczerpać. "Bardziej fundamentalnym ograniczeniem ogólnego podejścia opisanego w tym artykule [...] jest to, że może ono w końcu napotkać (lub już mogło napotkać) ograniczenia celu wstępnego szkolenia."

Autorzy sugerują obiecujące nowe kierunki, które mogą obejmować "uczenie funkcji celu od ludzi" oraz mieszanie innych rodzajów głębokiego uczenia, takich jak podejście "uczenia przez wzmacnianie" używane przez AlphaZero z DeepMind, aby wygrywać w szachy i go. (Już zaczęli wdrażać takie podejścia. We wczesnym wrześniu autorzy OpenAI pokazali, że mogą używać uczenia przez wzmacnianie do szkolenia GPT-3 w celu lepszego produkcji streszczeń artykułów, dając modelowi językowemu pewną informację zwrotną od ludzi na temat tego, które streszczenia brzmią lepiej).

Kolejną rzeczą, którą sugerują, jest dodanie innych typów danych, takich jak obrazy, aby uzupełnić "model świata" programu.

Rzeczywiście, w nadchodzących latach może się pojawić ta bardzo ogólna metoda rozprzestrzeniania się na inne modalności, takie jak obrazy i wideo. Wyobraź sobie program podobny do GPT-3, który potrafi przekładać obrazy na słowa i vice versa bez konieczności stosowania konkretnego algorytmu do modelowania związku między nimi. Na przykład, mógłby "uczyć się" tekstowych opisów scen na podstawie zdjęć lub przewidywać fizyczne sekwencje zdarzeń na podstawie opisów tekstowych.

Dyrektor Facebook AI, Yann LeCun, argumentuje, że nienadzorowane szkolenie w różnych formach jest przyszłością głębokiego uczenia. Jeśli to jest prawda, podejście wstępnego szkolenia stosowane do wielu modalności danych, od głosu do tekstu, obrazów i wideo, może być postrzegane jako jedno bardzo obiecujące przyszłe kierunki nienadzorowanej fali.

Czym jest GPT-3? Wszystko, co Twój biznes powinien wiedzieć o przełomowym programie językowym sztucznej inteligencji OpenAI