Projekt RedPajama rozwija otwarty zbiór danych dla systemów sztucznej inteligencji

Przedstawiono wspólny projekt RedPajama mający na celu stworzenie otwartych modeli uczenia maszynowego i towarzyszących danych wejściowych szkoleniowych, które można wykorzystać do zbudowania inteligentnych asystentów konkurujących z produktami komercyjnymi, takimi jak ChatGPT. Oczekuje się, że obecność danych open source i dużych modeli językowych usunie ograniczenia niezależnych zespołów zaangażowanych w badania w obszarze uczenia maszynowego oraz uprości tworzenie wyspecjalizowanych systemów dialogowych. Do prac nad projektem włączyły się organizacje i społeczności, takie jak Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research i MILA Québec AI Institute.

Pierwszym krokiem była publikacja zestawu danych RedPajama-Data-1T o wartości 1.2 biliona tokenów do szkolenia modeli konwersacyjnych. Zestaw RedPajama odtwarza dane z publicznych źródeł wykorzystywanych przez Facebooka do tworzenia modelu LLaMA (łącznie 1.25 biliona tokenów), ale jest dostarczany na otwartej licencji, która nie ogranicza zakresu użytkowania (dane i modele LLaMA były dostarczane tylko naukowcom przez specjalne żądanie do użytku niekomercyjnego). Zestaw RedPajama-Data-1T do pobrania waży 2.67 TB i zawiera informacje z indeksowanych stron internetowych Common Crawl, archiwów Wikipedii, kodu źródłowego z GitHub, książek publicznych z biblioteki Gutenberga, artykułów naukowych z archiwum ArXiv oraz dyskusji ze Stack Overflow i innymi Witryny wymiany stosów.

W najbliższych tygodniach planowane jest powstanie gotowych modeli, wytrenowanych na podstawie przygotowanego zbioru danych i zoptymalizowanych z wykorzystaniem gotowych przykładów dialogów w formie instrukcji-wykonania z projektów Alpaca i OpenChatKit. Podobne inicjatywy oparte na modelach językowych obejmują częściowo otwarte projekty LLaMA, Alpaca, Vicuna i Koala, a także w pełni otwarte inicjatywy Pythia, OpenChatKit, Open Assistant i Dolly.

Dodatkowo pojawia się kilka nowych projektów związanych z uczeniem maszynowym:

  • MiniGPT-4 - rozszerza tradycyjne konwersacyjne chatboty o możliwości uwzględniające informacje wizualne, co pozwala analizować obrazy i uwzględniać odręczny tekst w procesie interakcji z systemem (np. możesz zapytać jaki obiekt jest pokazany) na zdjęciu, poproś bota o napisanie historii na podstawie tego, co jest na zdjęciu, lub na podstawie schematycznego szkicu, poproś o stworzenie strony internetowej). Implementacja MiniGPT-4 jest napisana w języku Python i rozpowszechniana na licencji BSD.
  • Facebook opublikował zestaw narzędzi i samouczący się (SSL, Self-Supervised Learning, nie wykorzystuje etykiet i adnotacji przygotowanych przez człowieka) model widzenia maszynowego DINOv2 odpowiedni do rozwiązywania problemów uogólnionego przetwarzania danych wizualnych (klasyfikacja obrazów, wydobywanie informacji o obiektach w obrazów, rozumienie tego, co dzieje się na wideo) oraz manipulacje na poziomie pikseli (przewidywanie głębi, segmentacja). Model jest szkolony na zbiorze 142 milionów obrazów. Implementacja jest napisana w języku Python i rozpowszechniana na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne 4.0, która umożliwia wykorzystanie niekomercyjne.
  • GPT4All to zestaw narzędzi do szybkiego uruchamiania samodzielnych chatbotów na własnym sprzęcie (nie mają one dostępu do usług zewnętrznych i używają procesorów z obsługą AVX2 do wykonania). Obsługiwane jest łączenie dużych modeli językowych opartych na GPT-J i LLaMa. Kod jest napisany w Pythonie i rozpowszechniany na licencji MIT.

Źródło: opennet.ru

Dodaj komentarz