DeepSeek 开源周首日：开源 FlashMLA，AI 推理速度再进化

推理加速！DeepSeek放出第一个开源库。

2月24日周一，DeepSeek宣布启动“开源周”，首个开源的代码库为Flash MLA，目前已投入生产。

据介绍，FlashMLAFlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目，是针对英伟达Hopper架构的GPU优化的高效MLA解码内核，主要在变长序列 (variable-length sequences) 的场景进行了深度优化，能够显著提升大模型推理效率。

开源网页信息显示，FlashMLA 的运行环境要求包括Hopper GPU、CUDA 12.3及以上版本以及PyTorch 2.0及以上版本，只需通过`python setup.py install`即可完成配置。

性能方面，FlashMLA在CUDA 12.6环境下，H800 SXM5内存受限配置下可实现3000 GB/s的带宽，计算受限配置下则可达580 TFLOPS的算力，展现出卓越的计算效率。

上周五，DeepSeek宣布，接下来一周会陆续开源5个代码库，每日都有新内容解锁，进一步分享新的进展。

DeepSeek还表示，当前在线服务的模块已经经过测试、部署完备，可以投入生产环境。这个领域没有高高在上的象牙塔，只有纯粹的车库创业精神与社区共筑的创新力量。

DeepSeek 开源周首日：开源 FlashMLA，AI 推理速度再进化

来源 | 华尔街见闻　作者 | 李笑寅

2025年02月24日 12:13

本文553字，约1分钟

DeepSeek 开源周首日：开源 FlashMLA，AI 推理速度再进化

来源 | 华尔街见闻 作者 | 李笑寅

2025年02月24日 12:13

本文553字，约1分钟

来源 | 华尔街见闻　作者 | 李笑寅