Wydano siedem darmowych otwartoźródłowych modeli GPT

Firma Silicon Valley AI Cerebras wydała siedem modeli GPT na licencji open source, aby zapewnić alternatywę dla obecnie dostępnych ściśle kontrolowanych i własnościowych systemów.

Bezpłatne modele GPT dostępne na licencji Apache 2.0, wraz z wagami i przepisem treningowym, zostały udostępnione przez Cerebras, firmę z Doliny Krzemowej, specjalizującą się w infrastrukturze sztucznej inteligencji.

Do pewnego stopnia, siedem modeli GPT jest dowodem koncepcji dla superkomputera sztucznej inteligencji Cerebras Andromeda.

Infrastruktura Cerebras pozwala ich klientom, takim jak Jasper AI Copywriter, szybko trenować własne niestandardowe modele językowe.

W artykule na blogu Cerebras na temat technologii sprzętowej zauważono:

"Wszystkie modele Cerebras-GPT były trenowane na 16x CS-2 Cerebras Wafer-Scale Cluster o nazwie Andromeda.

Klaster umożliwił przeprowadzenie wszystkich eksperymentów szybko, bez konieczności tradycyjnego inżynieryjnego tworzenia systemów rozproszonych i strojenia równoległego modelu na klastrach GPU.

Najważniejsze było to, że umożliwił naszym badaczom skupienie się na projektowaniu ML zamiast na systemie rozproszonym. Uważamy, że możliwość łatwego trenowania dużych modeli jest kluczowym narzędziem dla szerokiej społeczności, dlatego udostępniliśmy Cerebras Wafer-Scale Cluster w chmurze za pośrednictwem Cerebras AI Model Studio."

Modele Cerebras GPT i przejrzystość

Cerebras wskazuje koncentrację posiadania technologii sztucznej inteligencji przez tylko kilka firm jako powód do stworzenia siedmiu otwartych modeli GPT.

OpenAI, Meta i Deepmind przechowują dużą ilość informacji na temat swoich systemów jako poufną i ściśle kontrolowaną, co ogranicza innowacje tylko do tego, na co trzy korporacje zdecydują, że inni mogą robić z ich danymi.

Czy zamknięte źródło jest najlepsze dla innowacji w dziedzinie sztucznej inteligencji? A może przyszłością jest oprogramowanie open source?

Cerebras pisze:

"Aby LLM stał się technologią otwartą i dostępną, uważamy, że ważne jest, aby mieć dostęp do najnowocześniejszych modeli, które są otwarte, możliwe do odtworzenia i bezpłatne zarówno do celów badawczych, jak i komercyjnych.

W tym celu przeszkoliliśmy rodzinę modeli transformatorowych, używając najnowszych technik i otwartych zestawów danych, które nazywamy Cerebras-GPT.

Te modele są pierwszą rodziną modeli GPT przeszkolonych przy użyciu formuły Chinchilla i udostępnionych na licencji Apache 2.0."

W ten sposób te siedem modeli zostało udostępnionych na Hugging Face i GitHub, aby zachęcić do większych badań poprzez otwarty dostęp do technologii AI.

Te modele zostały wytrenowane z użyciem superkomputera AI Andromeda Cerebras, co zajęło zaledwie kilka tygodni.

Cerebras-GPT jest w pełni otwarty i transparentny, w przeciwieństwie do najnowszych modeli GPT od OpenAI (GPT-4), Deepmind i Meta OPT.

OpenAI i Deepmind Chinchilla nie oferują licencji na korzystanie z modeli. Meta OPT oferuje jedynie licencję niekomercyjną.

OpenAI GPT-4 nie ma absolutnie żadnej przejrzystości co do swoich danych treningowych. Czy korzystali z danych Common Crawl? Czy przeszukiwali Internet i stworzyli własny zbiór danych?

OpenAI utrzymuje tę informację (i więcej) w tajemnicy, co jest w sprzeczności z podejściem Cerebras-GPT, które jest w pełni transparentne.

Następujące informacje są wyłącznie otwarte i przejrzyste:

Architektura modelu
Dane treningowe
Wagi modelu
Punkty kontrolne
Stan treningu zoptymalizowany dla obliczeń (tak)
Świadczenie licencji: Licencja Apache 2.0

Siedem wersji dostępne w modelach o pojemności 111M, 256M, 590M, 1.3B, 2.7B, 6.7B i 13B.

Zostało to ogłoszone:

„Wśród firm zajmujących się sprzętem AI, Cerebras jako pierwsze przeprowadziło szkolenie serii siedmiu modeli GPT o parametrach wynoszących 111M, 256M, 590M, 1.3B, 2.7B, 6.7B i 13B na superkomputerze AI Andromeda.”

Zazwyczaj taka praca zajmuje wiele miesięcy, ale dzięki niesamowitej prędkości systemów Cerebras CS-2, które tworzą Andromedę, oraz zdolności do eliminowania problemów obliczeń rozproszonych dzięki strumieniowemu modelowi wag stworzonemu przez Cerebras, praca została ukończona w kilka tygodni.

Te wyniki dowodzą, że systemy Cerebras mogą szkolić dzisiaj największe i najbardziej złożone obciążenia AI.

Jest to pierwszy raz, kiedy zestaw modeli GPT, wytrenowany z użyciem technik szkolenia o najwyższej efektywności, został udostępniony publicznie.

Te modele są szkolenie z najwyższą precyzją przy danym budżecie obliczeniowym (czyli wykorzystującym efektywne szkolenie z wykorzystaniem receptury Chinchilla), dzięki czemu mają krótszy czas szkolenia, niższe koszty szkolenia i zużywają mniej energii niż jakiekolwiek istniejące modele publiczne.”

Otwarty kod sztucznej inteligencji (AI)

Fundacja Mozilla, twórcy oprogramowania open source Firefox, założyła firmę o nazwie Mozilla.ai, która ma za zadanie budować systemy GPT i rekomendacyjne oparte na otwartym kodzie źródłowym, które są wiarygodne i szanują prywatność.

Databricks niedawno udostępniło również otwartoźródłowego klona GPT o nazwie Dolly, który ma na celu demokratyzację "magii ChatGPT".

Poza tymi siedmioma modelami Cerebras GPT, inna firma o nazwie Nomic AI wydała GPT4All, otwartoźródłowy model GPT, który może działać na laptopie.

Ruch otwartego oprogramowania sztucznej inteligencji jest jeszcze w początkowej fazie, ale zyskuje na sile.

Technologia GPT rodzi ogromne zmiany w różnych branżach i możliwe, że otwarte wkłady open source mogą zmienić oblicze tych branż, które napędzają te zmiany.

Jeśli ruch otwartego oprogramowania będzie kontynuowany w takim tempie, możemy być na progu świadkowania przesunięcia w innowacji sztucznej inteligencji, które uniemożliwią skupienie jej w rękach kilku korporacji.

Czytaj oficjalne ogłoszenie:

Cerebras Systems publikuje siedem nowych modeli GPT szkolonych na systemach CS-2 w skali płytki

Siedem darmowych modeli GPT na licencji Open Source zostało udostępnionych

Modele Cerebras GPT i przejrzystość

Otwarty kod sztucznej inteligencji (AI)

Powiązane artykuły