Yummy 😋
DeepSeek宣布开源更多代码库 中国人工智能初创企业深度求索(DeepSeek)计划从下周开始向公众发布关键代码和数据,相比OpenAI等竞争对手,DeepSeek罕见地准备对外开放更多核心技术。 此举可能刺激美国和中国的人工智能竞赛升级。通过无偿分享代码秘密,DeepSeek将推动人工智能技术得到更广泛的应用。 DeepSeek 2月21日在X上发帖称,“接下来一周,会陆续开源5个代码库,毫无保留地分享我们微小但真诚的进展”。 🗒 标签: #DeepSeek 📢 频道: @GodlyNews1…
DeepSeek开源周第一日:为英伟达Hopper GPU优化的高效MLA解码内核FlashMLA

2月24日周一,DeepSeek宣布启动“开源周”,首个开源的代码库为Flash MLA,目前已投入生产。

据介绍,FlashMLA的灵感来自 FlashAttention 2&3 和 cutlass 项目,是针对英伟达Hopper架构的GPU优化的高效MLA解码内核,主要在变长序列 (variable-length sequences) 的场景进行了深度优化,能够显著提升大模型推理效率。

FlashMLA在CUDA 12.6环境下,H800 SXM5内存受限配置下可实现3000 GB/s的带宽,计算受限配置下则可达580 TFLOPS的算力。

因此,可以将FlashMLA理解为:DeepSeek专门针对英伟达H800这一代高端加速卡做的深度优化。

🗒 标签: #DeepSeek
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
 
 
Back to Top