Yummy 😋
DeepSeek宣布开源更多代码库 中国人工智能初创企业深度求索(DeepSeek)计划从下周开始向公众发布关键代码和数据,相比OpenAI等竞争对手,DeepSeek罕见地准备对外开放更多核心技术。 此举可能刺激美国和中国的人工智能竞赛升级。通过无偿分享代码秘密,DeepSeek将推动人工智能技术得到更广泛的应用。 DeepSeek 2月21日在X上发帖称,“接下来一周,会陆续开源5个代码库,毫无保留地分享我们微小但真诚的进展”。 🗒 标签: #DeepSeek 📢 频道: @GodlyNews1…
DeepSeek开源周第一日:为英伟达Hopper GPU优化的高效MLA解码内核FlashMLA2月24日周一,
DeepSeek宣布启动“开源周”,首个开源的代码库为Flash MLA,目前已投入生产。
据介绍,FlashMLA的灵感来自 FlashAttention 2&3 和 cutlass 项目,是
针对英伟达Hopper架构的GPU优化的高效MLA解码内核,主要在变长序列 (variable-length sequences) 的场景进行了深度优化,能够显著提升大模型推理效率。
FlashMLA在CUDA 12.6环境下,
H800 SXM5内存受限配置下可实现3000 GB/s的带宽,计算受限配置下则可达580 TFLOPS的算力。因此,可以将FlashMLA理解为:
DeepSeek专门针对英伟达H800这一代高端加速卡做的深度优化。🗒 标签: #DeepSeek
📢 频道:
@GodlyNews1🤖 投稿:
@GodlyNewsBot