RedPajama 項目為人工智能係統開發了一個開放數據集

RedPajama 協作項目旨在創建開放的機器學習模型和隨附的培訓輸入,可用於構建與 ChatGPT 等商業產品競爭的智能助手。 預計開源數據和大型語言模型的存在將消除從事機器學習領域研究的獨立團隊的限制,並將簡化專門對話系統的創建。 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Québec AI Institute 等組織和社區已加入該項目的工作。

第一步是發布用於訓練會話模型的 1 萬億代幣 RedPajama-Data-1.2T 數據集。 RedPajama 集複製了 Facebook 用於創建 LLaMA 模型的公共來源的數據(總計 1.25 萬億個代幣),但在不限制使用範圍的開放許可下提供(LLaMA 數據和模型僅由特殊機構向研究人員提供)非商業用途的請求)。 RedPajama-Data-1T 可下載集大小為2.67 TB,包括來自Common Crawl 索引網頁的信息、維基百科檔案、GitHub 的源代碼、古騰堡圖書館的公共書籍、ArXiv 檔案的科學文章以及與Stack Overflow 和其他Stack 的討論交換站點。

計劃在未來幾週內形成現成的模型,根據準備好的數據集進行訓練,並使用 Alpaca 和 OpenChatKit 項目的指令執行形式的現成對話框示例進行優化。 類似的語言模型計劃包括部分開源項目 LLaMA、Alpaca、Vicuna 和 Koala,以及完全開源計劃 Pythia、OpenChatKit、Open Assistant 和 Dolly。

此外,還有幾個與機器學習相關的新項目:

  • MiniGPT-4 - 通過考慮視覺信息的功能擴展了傳統的對話式聊天機器人,它允許您在與系統交互的過程中分析圖像並考慮手寫文本(例如,您可以詢問顯示的是什麼類型的對象)在圖片中,要求機器人根據照片中顯示的內容寫一個故事,或者根據示意圖,要求創建一個網站)。 MiniGPT-4 實現是用 Python 編寫的,並在 BSD 許可證下分發。
  • Facebook 發布了一個工具包和一個自學習(SSL,Self-Supervised Learning,不使用人類準備的標籤和註釋)DINOv2 機器視覺模型,適合解決廣義視覺數據處理問題(圖像分類、提取有關對象的信息)圖像、了解視頻上發生的情況)以及像素級別的操作(深度預測、分割)。 該模型使用 142 億張圖像集進行訓練。 該實現是用 Python 編寫的,並根據允許非商業使用的 Creative Commons Attribution-NonCommercial 4.0 許可證進行分發。
  • GPT4All 是一個工具包,用於在自己的硬件上快速啟動獨立的聊天機器人(它們不訪問外部服務並使用支持 AVX2 的 CPU 來執行)。 支持連接基於GPT-J和LLaMa的大型語言模型。 該代碼是用 Python 編寫的,並根據 MIT 許可證分發。

來源: opennet.ru

添加評論