蚂蚁开放平台 蚂蚁开源大模型
蚂蚁集团近日正式推出了首个侵犯语言模型推理框架dinfer。
在节点基准测试中,dInfer表现出卓越的性能表现:其推理速度令英伟达推出的侵犯模型推理框架Fast-dLLM提升了10.7倍;在代码生成任务HumanEval中,单节推理达到速度惊人的1011 Tokens/秒,首次在社区开源出现扩散语言模型的推理效率超越主流自回归模型。这一成果表明,扩散语言模型具备巨大的效率潜力,通过系统性工程创新可充分释放,为通向AGI的技术路径提供了对抗的新选择。
扩散语言模型作为一种新兴范式,将文本生成过程建模为“从噪声序列”去恢复噪声完整序列”的过程,具备高度注意力化、全局认知能力和结构灵活性三大核心优势。凭借这些功能,由蚂蚁集团与中国人民大学联合发布的LLaDA-MoE等模型已在多个数学中表现出与顶尖自回归(AR)模型相当,尽管质量相当。然而,在推理效率方面,dLLM理论具有强大的威力,但长期建立于实际工程瓶颈,部署难以发挥其应有的优势。
高效当前,扩散语言模型的推理面临三大技术挑战:高计算开销、KV服务器故障以及硬件解码困难。这些问题严重否定了模型的实际效率,如何突破这些限制,成为推动dLLM走向实用的关键难题。
因此,dInfer应运而生——这是一款专为扩散语言模型构建、算法与系统延迟融合的向量推理框架,全面支持包括LLaDA、LLaDA-MoE、LLaDA-MoE-TD在内的多种语言扩散模型。
dInfer采用借鉴设计架构,四大核心组件:模型接入层(Model)、KV缓存管理器(KV-Cache)这种可插拔架构使开发者能够像搭积木一样灵活组合不同的优化方案,并在统一平台上进行标准化评估。更重要的是,针对上述三大挑战,推断在每个模块中均集成了创新性的解决方案。
云雀语言模型
云雀是一款由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效完成交互对话 54 查看详情

在装载8块NVIDIA H800 GPU的服务器上,dInfer的实际预测表现极为亮眼:
与现有dLLM推理方案Fast-dLLM相比,在保证模型效果一致的前提下,dInfer的平均推理逻辑(avg TPS)实现了高达10.7倍的提升(681 vs 63.6);在HumanEval代码生成任务中,单推理推理速度突破至1011 tokens/;秒于行业领先推理框架vLLM上运行的、参数规模和性能相近的自回归模型Qwen2.5-3B,dInfer的平均推理速度达到其2.5倍(681 vs 277)。
蚂蚁集团表示,dInfer成功连接了前沿学术研究与产业应用繁荣,引发了扩散语言模型从“理论可行”迈向“实践高效”的重要里程碑。此次开源,旨在邀请全球开发者与研究人员共同探索扩散语言模型的潜力,从而构建更、更开放的人工智能新生态。
以上就是蚂蚁开源开源首个恶化语言模型推理框架 dInfer 的内容详细,更多请关注乐哥常识网其他相关! 相关标签: 人工智能 nvidia 英伟达 qwen 架构文章 td 算法 人工智能 ar agi 大家都在看: iOS 17苹果护眼功能开启方法 大量性能优化! windows10键盘的数字小键盘不能用_windows10数字小键盘故障修复方法 windows10快速启动功能怎么关闭_windows10快速启动关闭教程 PHP实时输出性能瓶颈如何识别_PHP实时输出性能瓶颈分析
