自 DeepSeek 去年 1 月发布广受好评的推理 AI 模型 DeepSeek-R1 以来,一直没有重大更新。虽然网上偶尔会传出 DeepSeek 将推出新 AI 模型的消息,但下个月很可能发布多模态模型 DeepSeek-V4,该模型将在前代的基础上进行显著改进。

据消息人士透露,过去六个月,由联合创始人梁文峰领导的DeepSeek开发团队一直致力于解决DeepSeek在视觉内容处理方面的不足,并提升其AI搜索能力。该公司还力求增强AI模型的代码生成能力,并拓展其上下文感知范围。为了实现这些目标,DeepSeek于去年开始与百度展开合作。
全球专业平台的用户都在争相寻找DeepSeek新版本的蛛丝马迹。几天前,Healer Alpha和Hunter Alpha算法在最大的AI模型API聚合平台OpenRouter上发布。Healer Alpha是一个多模态语言模型,能够感知视觉和听觉信息,进行跨模态推理,并高精度地执行多步骤任务。该算法的上下文窗口仅为260万个词元。Hunter Alpha专为基于代理的应用而设计,拥有数万亿个参数,上下文窗口高达1万个词元。描述中提到,该算法擅长长期规划、复杂推理和持续执行多步骤任务。它能够准确地遵循指令,这对于使用OpenClaw等框架创建AI代理至关重要。

随着这两个语言模型的发布,X社交网络上关于DeepSeek-V4即将发布的讨论再次升温。然而,根据之前关于DeepSeek-V4的公开信息来看,该模型拥有数万亿个参数,上下文窗口大小为1万个词元,并且能够理解和生成多模态数据,即处理和创建文本、图像和视频。这意味着最近在OpenRouter上发布的算法的特性与DeepSeek-V4的预期参数并不完全匹配。
据消息人士透露,下一代DeepSeek的研发方向将着重于提升长期记忆能力,这被认为是语言模型最重要的特性之一。过去六个月,梁文峰参与撰写了三篇研究论文,其中就包括探索如何扩展语言模型长期记忆能力的论文。
文峰及其团队的研究成果也清晰地展现了技术演进的轨迹。在DeepSeek-R1中建立了用于推理的强化学习范式后,开发者们正在探索底层架构的进一步创新。具体而言,他们通过“条件内存”等新模块,试图解决传统架构在内存和计算能力方面存在的已知问题,从而提升算法的性能。这项工作也为DeepSeek-V4的发布做好了技术准备。此外,新算法将深度适配中国人工智能加速器,并有望成为首个在“国内计算生态系统”中全面运行的人工智能模型。
预计4月份中国人工智能模型市场将迎来显著活跃期。除了新版DeepSeek之外,腾讯预计还将推出另一款拥有300亿参数的人工智能模型。
来源:
来源: 3dnews.ru
