Ta nowa technologia może zmiótć GPT-4 i wszystko, co jest mu podobne

Dla całego zapału wokół programu sztucznej inteligencji chatbota o nazwie ChatGPT od OpenAI oraz jego następczej technologii GPT-4, programy te są po prostu aplikacjami komputerowymi. I jak wszystkie aplikacje, mają one ograniczenia techniczne, które mogą wpływać na ich suboptymalne działanie.

W marcowym artykule naukowym, naukowcy z dziedziny sztucznej inteligencji (AI) ze Stanford University i instytutu MILA w Kanadzie przedstawili technologię, która może być o wiele bardziej efektywna niż GPT-4 - ani cokolwiek podobnego - w odbieraniu ogromnej ilości danych i przekształcaniu ich w odpowiedź.

Również: Te byłych pracowników Apple chcą zastąpić smartfony tym gadżetem

Znana jako Hyena, ta technologia jest zdolna osiągać równą dokładność w testach referencyjnych, takich jak odpowiadanie na pytania, jednocześnie zużywając tylko ułamek mocy obliczeniowej. W niektórych przypadkach kod Hyena jest w stanie obsłużyć ilości tekstu, które sprawiają, że technologia w stylu GPT po prostu wyczerpuje pamięć i zawodzi.

"Nasze obiecujące rezultaty na skali poniżej miliarda parametrów sugerują, że uwaga nie jest jedynym czynnikiem, który potrzebujemy" - piszą autorzy. Ta uwaga odnosi się do tytułu kluczowego raportu dotyczącego sztucznej inteligencji z 2017 roku, 'Attention is all you need'. W tym artykule naukowcy z Google, Ashish Vaswani i jego koledzy, przedstawili światu program AI Google o nazwie Transformer. Transformer stał się podstawą dla wszystkich ostatnich dużych modeli językowych.

Ale Transformer ma dużą wadę. Używa czegoś, co nazywa się "uwagą", gdzie program komputerowy przekazuje informacje z jednej grupy symboli, takich jak słowa, do nowej grupy symboli, takiej jak odpowiedź, którą widzisz od ChatGPT, czyli wyniku.

Również:Czym jest GPT-4? Oto wszystko, co musisz wiedzieć

Ta operacja uwagi - podstawowe narzędzie wszystkich dużych programów językowych, w tym ChatGPT i GPT-4 - ma "kwadratową" złożoność obliczeniową (według Wikipedii "złożoność czasowa" obliczeń). Ta złożoność oznacza, że ilość czasu potrzebna ChatGPT do wygenerowania odpowiedzi wzrasta kwadratowo wraz z ilością danych podanych na wejście.

W pewnym momencie, jeśli jest zbyt dużo danych - zbyt wiele słów w poleceniu lub zbyt wiele ciągów rozmów przez godziny i godziny czatów z programem - albo program utknął, dając odpowiedź, albo musi otrzymać coraz więcej układów GPU, aby działać szybciej, co prowadzi do wzrostu wymagań obliczeniowych.

W nowej publikacji, "Hierarchia Szakali: W kierunku większych modeli językowych opartych na konwolucji", opublikowanej na serwerze preprintów arXiv, główny autor Michael Poli z Stanfordu i jego koledzy proponują zastąpienie funkcji uwagi Transformersów czymś subkwadratowym, mianowicie Hieną.

Również:Czym jest Auto-GPT? Wszystko, co należy wiedzieć o następnym potężnym narzędziu sztucznej inteligencji

Autorzy nie wyjaśniają nazwy, ale można sobie wyobrazić kilka powodów dla programu "Hyena". Hieny to zwierzęta żyjące w Afryce, które potrafią polować na wiele mil. W pewnym sensie, bardzo potężny model językowy może być jak hiena, polująca na wiele mil, by znaleźć pożywienie.

Autorzy są naprawdę zaniepokojeni "hierarchią", jak sugeruje tytuł, a rodziny hien mają ścisłą hierarchię, w której członkowie lokalnego klana hyen mają różne poziomy rangi, które ustanawiają dominację. W pewnym analogicznym sposobie program Hyena stosuje wiele bardzo prostych operacji, jak zobaczysz, wciąż i wciąż, aby połączyć się i tworzyć rodzaj hierarchii przetwarzania danych. To właśnie ten element kombinacyjny nadaje programowi jego nazwę Hyena.

Również:Przyszłe wersje ChatGPT mogą zastąpić większość pracy, którą ludzie wykonują dzisiaj, mówi Ben Goertzel

Do grona autorów niniejszego artykułu należą wybitne postacie związane z dziedziną sztucznej inteligencji, takie jak Yoshua Bengio, dyrektor naukowy instytutu MILA, który został uhonorowany Turingiem w 2019 roku - nagrodą w dziedzinie informatyki, równorzędną Noblowi. Bengio jest powszechnie uważany za twórcę mechanizmu uwagi, który został wykorzystany przez Vaswaniego i jego zespół w Transformerze.

Również wśród autorów znajduje się Christopher Ré, profesor współpracujący z wydziałem informatyki Uniwersytetu Stanforda, który w ostatnich latach przyczynił się do rozwoju idei sztucznej inteligencji jako "software 2.0".

Aby znaleźć subkwadratową alternatywę dla mechanizmu uwagi, Poli i zespół rozpoczęli badania, jak mechanizm uwagi wykonuje to, co robi, aby sprawdzić, czy można to zrobić bardziej efektywnie.

Ostatnio praktyka w naukach związanych z sztuczną inteligencją, zwana interpretowalnością mechaniczną, dostarcza wglądu w to, co dzieje się głęboko wewnątrz sieci neuronowej, wewnątrz "obwodów" obliczeniowych uwagi. Można to porównać do rozbierania oprogramowania tak, jak rozbiera się zegar lub komputer, aby zobaczyć jego części i zrozumieć, jak działa.

Także:Użyłem ChatGPT, aby napisać tę samą rutynę w 12 najpopularniejszych językach programowania. Oto jak się spisało

Jednym z powoływanych przez zespół Poli źródeł jest zestaw eksperymentów przeprowadzonych przez badacza Nelsona Elhage'a z startupu AI Anthropic. Eksperymenty te rozkładają programy Transformer, aby zobaczyć, co dokładnie robi mechanizm uwagi.

W zasadzie, co Elhage i zespół odkryli to, że uwaga działa na bardzo podstawowym poziomie poprzez bardzo proste operacje komputerowe, takie jak kopiowanie słowa z ostatniego wejścia i wklejanie go do wyjścia.

Na przykład, jeśli ktoś zaczyna wpisywać zdanie z książki Harry Potter i Kamień Filozoficzny, takie jak "Pan Dursley był dyrektorem firmy o nazwie Grunnings...", wystarczy wpisanie liter "D-u-r-s", aby program podpowiedział ukończenie nazwiska "Dursley", ponieważ wcześniej widział to nazwisko w zdaniu z Kamienia Filozoficznego. System potrafi skopiować z pamięci zapis znaków "l-e-y" w celu uzupełnienia zdania.

Również: Futurysta twierdzi, że ChatGPT przypomina bardziej „inteligencję pozaziemską” niż ludzki mózg

Jednak operacja uwagi napotyka problem kwadratowej złożoności, gdy ilość słów rośnie i rośnie. Więcej słów wymaga większej ilości tzw. "wag" czyli parametrów, do wykonania operacji uwagi.

Jak piszą autorzy: "Blok Transformer jest potężnym narzędziem do modelowania sekwencji, ale nie jest bez swoich ograniczeń. Jednym z najbardziej zauważalnych jest koszt obliczeniowy, który rośnie szybko wraz ze wzrostem długości sekwencji wejściowej."

Podczas gdy szczegóły techniczne ChatGPT i GPT-4 nie zostały ujawnione przez OpenAI, sądzimy, że mogą mieć bilion lub więcej takich parametrów. Uruchomienie tych parametrów wymaga większej liczby układów GPU od Nvidia, co zwiększa koszt obliczeniowy.

Aby zredukować ten kwadratowy koszt obliczeniowy, Poli i zespół zastępują operację uwagi tym, co nazywane jest "konwolucją", która jest jednym z najstarszych operacji w programach sztucznej inteligencji, udoskonaloną już w latach 80. Konwolucja to po prostu filtr, który może wyłuskać elementy w danych, czy to piksele na cyfrowym zdjęciu, czy słowa w zdaniu.

Również: Sukces ChatGPT może prowadzić do szkodliwej skłonności ku tajemnicy w sztucznej inteligencji, twierdzi pionier sztucznej inteligencji Bengio.

Poli i zespół wykonują taką mieszankę: łączą pracę wykonaną przez badacza Stanfod Daniel Y. Fu i jego zespół, polegającą na zastosowaniu filtrów splotowych do sekwencji słów, z pracą naukowca Davida Romero i jego kolegów z Vrije Universiteit Amsterdam, która umożliwia programowi dynamiczną zmianę rozmiaru filtrów. Ta zdolność do elastycznego dostosowania pozwala zmniejszyć liczbę kosztownych parametrów, czyli wag, których program potrzebuje.

Wynikiem połączenia jest to, że splot można zastosować do nielimitowanej ilości tekstu bez konieczności dodawania coraz większej liczby parametrów w celu kopiowania coraz większej ilości danych. Jest to podejście "bez uwagi", jak to określili autorzy.

"Operatorzy hieny są w stanie znacznie zmniejszyć różnicę jakości przy dużej skali uwagi", piszą Poli i zespół, "osiągając podobną zakłopotanie i wydajność w dół strumienia z mniejszym budżetem obliczeniowym". Zakłopotanie to techniczne pojęcie odnoszące się do tego, na ile zaawansowana jest odpowiedź generowana przez program, takiego jak ChatGPT.

W celu demonstracji zdolności Hyeny, autorzy testują program na serii benchmarków, które określają, jak dobry program językowy jest w różnych zadaniach związanych z SI.

Ponadto: 'Dziwne nowe rzeczy dzieją się w oprogramowaniu,' mówi profesor Chris Ré z Uniwersytetu Stanforda AI

Jednym z testów jest The Pile, zbiór tekstów o pojemności 825 gigabajtów, zebranych w 2020 roku przez Eleuther.ai, organizację non-profit zajmującą się badaniami nad sztuczną inteligencją. Teksty zostały zebrane z "wysokiej jakości" źródeł, takich jak PubMed, arXiv, GitHub, Urząd Patentowy Stanów Zjednoczonych i inne, aby źródła te miały bardziej rygorystyczny charakter niż tylko dyskusje na Reddit.

Kluczowym zadaniem programu było wygenerowanie następnego słowa na podstawie podanych nowych zdań jako danych wejściowych. Program Hyena był w stanie osiągnąć równorzędny wynik jak oryginalny program GPT od OpenAI z 2018 roku, wykonując o 20% mniej operacji obliczeniowych - "pierwsza architektura bez uwagi, oparta na splotach, zdolna dorównać jakości programu GPT, wykonując mniej operacji" piszą badacze.

Następnie autorzy przetestowali program na zadaniach logicznych znanych jako SuperGLUE, wprowadzonych w 2019 roku przez naukowców z Uniwersytetu Nowojorskiego, Facebook AI Research, jednostki DeepMind należącej do Google'a oraz Uniwersytetu Waszyngtona.

Na przykład, po otrzymaniu zdania "Mój cień padał na trawę" oraz dwóch możliwych przyczyn, "słońce wzeszło" lub "trawa została skoszona", program powinien wygenerować "słońce wzeszło" jako odpowiedni wynik.

Wielozadaniowy program Hyena osiągnął wyniki w zbliżonym zakresie do wersji GPT, mimo że został wytrenowany na mniej niż połowie objętości danych treningowych.

Również: Jak korzystać z nowego Bing (i jak różni się od ChatGPT)

Nawet bardziej interesujące jest, co się stało, gdy autorzy zwiększyli długość używanych fraz jako wejścia: więcej słów równało się lepszemu poprawieniu wydajności. Przy 2 048 "tokenach", które można traktować jako słowa, Hyena potrzebuje mniej czasu, aby zakończyć zadanie językowe niż podejście uwagi.

W 64 000 tokenach autorzy informują, "Przyspieszenia hieny osiągają 100x" - czyli stu krotna poprawa wydajności.

Poli i zespół twierdzą, że nie tylko próbowali innego podejścia z Hyeną, oni "przełamali barierę kwadratową", powodując jakościową zmianę w trudności obliczania wyników przez program.

Oni sugerują, że istnieją również potencjalnie znaczące zmiany jakościowe dalej w przyszłości: "Przełamanie bariery kwadratowej to kluczowy krok w kierunku nowych możliwości uczenia głębokiego, takich jak wykorzystywanie całych podręczników jako kontekstu, generowanie długich form muzyki lub przetwarzanie obrazów o gigapikselowej skali", piszą.

Zdolność hieny do używania filtra, który bardziej efektywnie rozciąga się na tysiące i tysiące słów, piszą autorzy, oznacza, że praktycznie nie ma limitu dla "kontekstu" zapytania do programu językowego. To mogłoby w efekcie przywoływać elementy tekstów lub wcześniejszych rozmów, które są znacznie oddalone od bieżącego wątku rozmowy - tak jak hieny polujące na wiele mil.

Ponadto: Najlepsze chatboty AI: ChatGPT i inne ciekawe alternatywy do wypróbowania

"Operatorzy hieny mają nieograniczony kontekst" - piszą. "Mianowicie, nie są sztucznie ograniczeni przez np. lokalność i mogą uczyć się długiego zależności na odległość między dowolnymi elementami [wejścia]."

Ponadto, program może być stosowany nie tylko do słów, ale także do danych różnych modalności, takich jak obrazy, a być może wideo i dźwięki.

Warto zauważyć, że program Hyena przedstawiony w artykule jest mały w porównaniu do GPT-4 lub nawet GPT-3. Podczas gdy GPT-3 ma 175 miliardów parametrów lub wag, największa wersja Hyena ma tylko 1,3 miliarda parametrów. Dlatego jeszcze nie wiadomo, jak dobrze Hyena poradzi sobie w pełnym bezpośrednim porównaniu z GPT-3 lub 4.

Ale jeśli osiągnięta wydajność utrzymuje się dla większych wersji programu Hyena, może to być nowy paradygmat, który będzie równie powszechny, jak uwaga była przez ostatnią dekadę.

Zespół Poli i innych podsumowuje: "Prostsze, podkwadratowe projekty, takie jak Hyena, oparte na zestawie prostych zasad i ocenie na mechanizmy interpretowalności, mogą stanowić podstawę efektywnych dużych modeli."

Ta nowa technologia może zdmuchnąć GPT-4 i wszystko podobne

Powiązane artykuły