正文

DeepSeek宣布推出NSA：用于超快速长上下文训练和推理

秋沛儿 V管理员 /2025-02-18 16:43:02/9阅读/0评论

0218

文章最后更新时间2025年02月18日，若文章内容或图片失效，请留言反馈！

　　DeepSeek宣布推出NSA，用于超快速的长上下文训练和推理。

　　据其介绍，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的长上下文训练和推理。

　　通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。

　　在一般基准测试、长上下文任务和基于指令的推理上，它与完全注意力模型相匹配或优于完全注意力模型。

DeepSeek宣布推出NSA：用于超快速长上下文训练和推理

相关阅读

发表评论取消回复

评论列表（暂无评论，9人围观）

还没有评论，来说两句吧...

目录[+]

微信二维码

微信二维码

支付宝二维码