自 DeepSeek 去年 1 月發布廣受好評的推理 AI 模型 DeepSeek-R1 以來,一直沒有重大更新。雖然網路上偶爾會傳出 DeepSeek 將推出新 AI 模型的消息,但下個月很可能會發布多模態模型 DeepSeek-V4,該模型將在前代的基礎上進行顯著改進。

消息人士透露,過去六個月,由共同創辦人梁文峰領導的DeepSeek開發團隊一直致力於解決DeepSeek在視覺內容處理方面的不足,並提升其AI搜尋能力。該公司也力求增強AI模型的程式碼產生能力,並拓展其上下文感知範圍。為了實現這些目標,DeepSeek去年開始與百度展開合作。
全球專業平台的用戶都在爭相尋找DeepSeek新版的蛛絲馬跡。幾天前,Healer Alpha和Hunter Alpha演算法在最大的AI模型API聚合平台OpenRouter上發布。 Healer Alpha是一個多模態語言模型,能夠感知視覺和聽覺訊息,進行跨模態推理,並高精度地執行多步驟任務。該演算法的上下文視窗僅260萬個詞元。 Hunter Alpha專為基於代理的應用而設計,擁有數萬億個參數,上下文視窗高達1萬個詞元。描述中提到,該演算法擅長長期規劃、複雜推理和持續執行多步驟任務。它能夠準確地遵循指令,這對於使用OpenClaw等框架創建AI代理至關重要。

隨著這兩個語言模型的發布,X社交網路上關於DeepSeek-V4即將發布的討論再次升溫。然而,根據先前關於DeepSeek-V4的公開資訊來看,該模型擁有數萬億個參數,上下文視窗大小為1萬個詞元,並且能夠理解和產生多模態數據,即處理和創建文字、圖像和影片。這意味著最近在OpenRouter上發布的演算法的特性與DeepSeek-V4的預期參數並不完全匹配。
消息人士透露,下一代DeepSeek的研發方向將著重於提升長期記憶能力,被認為是語言模型最重要的特性之一。過去六個月,梁文峰參與撰寫了三篇研究論文,其中就包括探索如何擴展語言模型長期記憶能力的論文。
文峰及其團隊的研究成果也清楚展現了技術演進的軌跡。在DeepSeek-R1中建立了用於推理的強化學習範式後,開發者們正在探索底層架構的進一步創新。具體而言,他們透過「條件記憶體」等新模組,試圖解決傳統架構在記憶體和運算能力方面存在的已知問題,從而提升演算法的效能。這項工作也為DeepSeek-V4的發布做好了技術準備。此外,新演算法將深度適配中國人工智慧加速器,並有望成為首個在「國內運算生態系統」中全面運作的人工智慧模型。
預計4月份中國人工智慧模型市場將迎來顯著活躍期。除了新版DeepSeek之外,騰訊預計還將推出另一款擁有300億參數的人工智慧模型。
來源:
來源: 3dnews.ru
