梁文锋 北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
通过这一技术,值得注意的是,这篇论文是由DeepSeek创始人梁文锋亲自提交的,而且他也是月之暗面提出的新方法叫块注意力混合。这项方法没有完全脱离现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力模型更多的适配空间。
谈及DeepSeek的NSA机制,风投公司RAI Digital联合创始人萨义德·戈苏斯对北京时间2月18日,DeepSeek官方在X上发布新论文,介绍了一种新的算法优化方式——原生稀疏注意力。
据DeepSeek介绍,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。
通过这一技术,
值得注意的是,
月之暗面再次“撞车”DeepSeek
无独有偶,在DeepSeek发论文的当天,月之暗面创始人杨植麟也亲自“挂帅”发表了一篇论文,同样直指算法优化。
杨植麟
该公司提出的新方法叫块注意力混合。顾名思义,根据论文,而这也并不是是DeepSeek和月之暗面第一次“撞车”了,上一次是在DeepSeek推理模型R1和月之暗面推理模型Kimi 1.5发布时。
MoBA论文主要
DeepSeek新方法背后的三大技术
谈及DeepSeek的新方法,风投公司RAI Digital联合创始人萨义德·戈苏斯告诉戈苏斯进一步向它使用三种主要技术来实现这一点:
DeepSeek认为,三部分策略使NSA速度更快,同时理解含义的能力与传统方法一样好。”
有网友称,戈苏斯还表示,有科技媒体指出,