RedPajama төсөл нь хиймэл оюун ухааны системд зориулсан нээлттэй мэдээллийн багцыг боловсруулдаг

ChatGPT зэрэг арилжааны бүтээгдэхүүнтэй өрсөлдөх ухаалаг туслахуудыг бий болгоход ашиглаж болох нээлттэй машин сургалтын загвар болон дагалдах сургалтын орцуудыг бий болгох RedPajama хамтын төслийг танилцуулж байна. Нээлттэй эх сурвалжийн өгөгдөл, том хэлний загварууд байгаа нь машин сургалтын чиглэлээр судалгаа хийдэг бие даасан багуудын хязгаарлалтыг арилгаж, харилцан ярианы тусгай системийг бий болгоход хялбар болгоно гэж үзэж байна. Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research, MILA Québec AI Institute зэрэг байгууллага, нийгэмлэгүүд төслийн ажилд нэгдсэн.

Эхний алхам нь харилцан ярианы загваруудыг сургах зориулалттай 1 их наяд RedPajama-Data-1.2T өгөгдлийн багцыг нийтлэх явдал байв. RedPajama иж бүрдэл нь Facebook-ийн LLaMA загвараа (нийт 1.25 их наяд жетон) бүтээхэд ашигладаг олон нийтийн эх сурвалжаас авсан өгөгдлийг хуулбарласан боловч ашиглалтын хүрээг хязгаарлаагүй нээлттэй лицензийн дагуу нийлүүлдэг (LLaMA өгөгдөл, загварыг зөвхөн судлаачдад тусгайлан нийлүүлсэн болно) арилжааны бус зорилгоор ашиглах хүсэлт). RedPajama-Data-1T татаж авах боломжтой багц нь 2.67 TB бөгөөд Common Crawl индексжүүлсэн вэб хуудасны мэдээлэл, Википедиа архив, GitHub-ын эх код, Гутенбергийн номын сангийн нийтийн ном, ArXiv архивын шинжлэх ухааны нийтлэл, Stack Overflow болон бусад Stack-тай хийсэн хэлэлцүүлгийг багтаасан болно. Сайт солилцох.

Бэлтгэсэн өгөгдлийн багц дээр үндэслэн бэлтгэгдсэн, Alpaca болон OpenChatKit төслүүдийн зааварчилгааг гүйцэтгэх хэлбэрээр харилцах цонхны бэлэн жишээнүүдийг ашиглан оновчтой болгосон бэлэн загваруудыг ойрын хэдэн долоо хоногт бий болгохоор төлөвлөж байна. Үүнтэй төстэй хэлний загвар санаачилгад хэсэгчлэн нээлттэй эхийн LLaMA, Alpaca, Vicuna, Koala төслүүд, мөн Pythia, OpenChatKit, Open Assistant, Dolly зэрэг бүрэн нээлттэй эхийн санаачлагууд багтана.

Нэмж дурдахад, машин сурахтай холбоотой хэд хэдэн шинэ төсөл бий:

  • MiniGPT-4 - визуал мэдээллийг харгалзах чадвартай уламжлалт ярианы чат ботуудыг өргөтгөсөн бөгөөд энэ нь системтэй харилцах явцад зурагт дүн шинжилгээ хийх, гараар бичсэн текстийг харгалзах боломжийг олгодог (жишээлбэл, та ямар төрлийн объект байгааг асууж болно. зураг дээр ботоос зураг дээр үзүүлсэн зүйл дээр үндэслэн түүх бичихийг хүс, эсвэл бүдүүвч зураг дээр үндэслэн вэбсайт үүсгэхийг хүс). MiniGPT-4-ийн хэрэгжилтийг Python дээр бичсэн бөгөөд BSD лицензийн дагуу түгээдэг.
  • Фэйсбүүк нь ерөнхий харааны мэдээлэл боловсруулах (зургийн ангилал, доторх объектын мэдээллийг задлах) асуудлыг шийдвэрлэхэд тохиромжтой DINOv2 машины харааны загварыг (SSL, Self-Supervised Learning, хүний ​​бэлтгэсэн шошго, тэмдэглэгээ ашигладаггүй) нийтлэв. зураг, видеон дээр юу болж байгааг ойлгох) болон пикселийн түвшний заль мэх (гүнийг урьдчилан таамаглах, сегментчилэл). Загвар өмсөгчийг 142 сая зургийн цуглуулгад сургасан. Хэрэгжилт нь Python дээр бичигдсэн бөгөөд арилжааны бус зорилгоор ашиглахыг зөвшөөрдөг Creative Commons Attribution-NonCommercial 4.0 лицензийн дагуу түгээдэг.
  • GPT4All нь бие даасан чатботуудыг өөрийн техник хангамж дээр хурдан эхлүүлэх хэрэгсэл юм (тэд гадны үйлчилгээнд ханддаггүй бөгөөд гүйцэтгэхийн тулд AVX2 дэмжлэгтэй CPU ашигладаг). GPT-J болон LLaMa дээр суурилсан том хэлний загваруудыг холбохыг дэмждэг. Код нь Python дээр бичигдсэн бөгөөд MIT лицензийн дагуу тараагддаг.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх