OpenAI GPT-4 wchodzi w fazę testów w połowie marca 2023 roku

gpt-4-640b66db8c60d-sej-1520x800.jpg

CTO Microsoft Niemcy, Andreas Braun, potwierdził, że GPT-4 zostanie wydany w ciągu tygodnia od 9 marca 2023 roku i będzie wielomodalny. Wielomodalna sztuczna inteligencja oznacza, że będzie zdolna do działania w różnych rodzajach danych wejściowych, takich jak wideo, obrazy i dźwięk.

Aktualizacja: GPT-4 wydany 14 marca 2023 roku

OpenAI wydało GPT-4 w dniu 14 marca 2023 roku. Jest to model multimodalny, który akceptuje obrazy i tekst jako polecenia.

Modalność jest frazą używaną w uczeniu maszynowym do określania form wejściowych, takich jak tekst, ale także zmysły, takie jak dźwięk, obraz, zapach, itp.

Ogłoszenie OpenAI opisuje skalę postępów GPT-4:

„… podczas gdy jest mniejszością kompetentne niż ludzie w wielu rzeczywistych scenariuszach, wykazuje osiągnięcia na poziomie ludzkim na różnych zawodowych i akademickich testach.

Na przykład, zdaje symulowany egzamin adwokacki z wynikiem około 10% najlepszych zdających; w porównaniu, wynik GPT-3.5 był na poziomie dolnych 10%.

Spędziliśmy 6 miesięcy iteracyjnego dopasowywania GPT-4, korzystając z nauki z naszego programu testowania adwersyjnego oraz ChatGPT, co zaowocowało naszymi najlepszymi wynikami (choć nadal dalekimi od doskonałości) pod względem faktografii, sterowalności i niewychodzenia poza obręby.”

Wielomodalne duże modele językowe

Jednym z najważniejszych wniosków z ogłoszenia jest to, że GPT-4 jest multimodalny (SEJ przewidywał w styczniu 2023, że GPT-4 jest multimodalny).

Modalność odnosi się do rodzaju wejścia, z którym (w tym przypadku) duży model językowy pracuje.

Multimodalność może obejmować tekst, mowę, obrazy i wideo.

GPT-3 i GPT-3.5 działały tylko w jednej modalności, tekście.

Według niemieckiego raportu informacyjnego, GPT-4 może działać w co najmniej czterech trybach: obrazów, dźwięku (słuchowym), tekstu i wideo.

Dr. Andreas Braun, CTO Microsoft Germany jest cytowany:

"W przyszłym tygodniu wprowadzimy GPT-4, tam będziemy mieć modele multimodalne, które zaoferują zupełnie różne możliwości - na przykład filmy..."

Raportowanie było pozbawione szczegółów dotyczących GPT-4, więc nie jest jasne, czy to, co zostało podzielone na temat wielomodalności, odnosi się konkretnie do GPT-4, czy ogólnie.

Dyrektor strategii biznesowej Microsoftu, Holger Kenn, wyjaśnił wielomodalność, ale raportowanie nie było jednoznaczne, czy odnosił się do GPT-4 wielomodalności, czy też ogólnej wielomodalności.

Uważam, że jego odniesienia do multimodalności dotyczyły konkretnie GPT-4.

Podzielono następujący raport informacyjny:

"Kenn wyjaśnił, czym jest wielomodalna sztuczna inteligencja, która może tłumaczyć tekst nie tylko na obrazy, ale także na muzykę i wideo."

Kolejnym interesującym faktem jest to, że Microsoft pracuje nad „metrykami pewności”, aby opierać swoją sztuczną inteligencję na faktach, co sprawi, że będzie bardziej wiarygodna.

Microsoft Kosmos-1

Czy coś, co prawdopodobnie zostało pominięte w Stanach Zjednoczonych, to fakt, że Microsoft wydał w marcu 2023 roku wielomodalny model językowy o nazwie Kosmos-1.

Zgodnie z informacjami opublikowanymi przez niemiecką witrynę informacyjną Heise.de:

"...zespół poddał wstępnie nauczony model różnym testom, z dobrymi wynikami w klasyfikacji obrazów, odpowiadając na pytania dotyczące treści obrazu, automatycznym oznaczaniu obrazów, optycznym rozpoznawaniu tekstu oraz generowaniu mowy.

...Wizualne wnioskowanie, czyli wyciąganie wniosków na podstawie obrazów bez używania języka jako pośredniego kroku, wydaje się być tu kluczowe..."

Kosmos-1 to multimodalne okno dialogowe, które integruje modalności tekstu i obrazów.

GPT-4 idzie dalej niż Kosmos-1, ponieważ dodaje trzecią modalność, czyli video. Wydaje się również obejmować modalność dźwięku.

Działa we wszystkich językach

GPT-4 wydaje się działać we wszystkich językach. Opisuje się go jako zdolnego otrzymać pytanie w języku niemieckim i udzielić odpowiedzi po włosku.

To dość dziwny przykład, bo kto by zadawał pytanie po niemiecku i oczekiwał odpowiedzi po włosku?

To, co zostało potwierdzone:

"...technologia posunęła się tak daleko, że działa praktycznie we wszystkich językach: Możesz zadać pytanie po niemiecku i otrzymać odpowiedź po włosku."

Dzięki multimodalności, Microsoft(-OpenAI) 'uczyni modele kompleksowymi'."

Uważam, że istota przełomu polega na tym, że model przekracza barierę językową dzięki zdolności do wydobycia wiedzy z różnych języków. Jeśli odpowiedź jest po włosku, będziemy wiedzieli to i będziemy w stanie udzielić odpowiedzi w języku, w którym pytanie zostało zadane.

To sprawiłoby, że byłoby podobne do celu multimodalnej sztucznej inteligencji firmy Google, zwanym MUM. Mówi się, że MUM jest w stanie udzielać odpowiedzi po angielsku na pytania, na które istnieją dane tylko w innym języku, takim jak japoński.

Zastosowania GPT-4

Nie ma obecnie żadnego ogłoszenia, gdzie pojawi się GPT-4. Ale wspomniano specyficznie Azure-OpenAI.

Google boryka się z problemem dogonienia Microsoftu poprzez integrację konkurencyjnej technologii do własnej wyszukiwarki. Ten rozwój bardziej pogłębia przekonanie, że Google zostaje w tyle i brakuje mu przywództwa w dziedzinie sztucznej inteligencji skierowanej do konsumentów.

Google już integruje sztuczną inteligencję w wielu produktach, takich jak Google Lens, Google Maps i inne obszary, z którymi konsumenci współpracują z Google. To podejście polega na wykorzystaniu sztucznej inteligencji jako technologii pomocniczej, aby pomagać ludziom w drobnych zadaniach.

Sposób, w jaki Microsoft to realizuje, jest bardziej widoczny, co skutkuje tym, że przyciąga całą uwagę i wzmacnia obraz Google jako marki, która się męczy i błąka, starając się nadrobić straty.

Czytaj oficjalne ogłoszenie o wydaniu OpenAI GPT-4 tutaj.

Przeczytaj oryginalne niemieckie raportowanie tutaj:

GPT-4 nadchodzi w przyszłym tygodniu - i będzie multimodalny, twierdzi Microsoft Germany

Powiązane artykuły

Więcej informacji >>

Odblokuj moc AI dzięki HIX.AI!