推理加速!DeepSeek放出第一个开源库。
2月24日周一,DeepSeek宣布启动“开源周”,首个开源的代码库为Flash MLA,目前已投入生产。
据介绍,FlashMLAFlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目,是针对英伟达Hopper架构的GPU优化的高效MLA解码内核,主要在变长序列 (variable-length sequences) 的场景进行了深度优化,能够显著提升大模型推理效率。
开源网页信息显示,FlashMLA 的运行环境要求包括Hopper GPU、CUDA 12.3及以上版本以及PyTorch 2.0及以上版本,只需通过`python setup.py install`即可完成配置。
性能方面,FlashMLA在CUDA 12.6环境下,H800 SXM5内存受限配置下可实现3000 GB/s的带宽,计算受限配置下则可达580 TFLOPS的算力,展现出卓越的计算效率。
上周五,DeepSeek宣布,接下来一周会陆续开源5个代码库,每日都有新内容解锁,进一步分享新的进展。
DeepSeek还表示,当前在线服务的模块已经经过测试、部署完备,可以投入生产环境。这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。