百模大战下,如何让大模型快速落地、更加普惠成为决定企业和AI大模型的真正竞争力。12月1日,阿里云对外宣布,开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B以及音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿和720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,形成了“全尺寸、全模态”开源模型矩阵。
在大模型的训练和使用中,算力消耗分为两部分场景:训练成本消耗与推理成本消耗。而开源大模型可以帮助企业节省预训练阶段的算力,降低模型参数体量,从而进一步降低了企业在使用模型时的推理成本,加速大模型技术普惠。
00后华东理工大学·X-D Lab(心动实验室)成员颜鑫则有着自己的科研团队,他们基于开源的通义千问基座模型开发了三款垂直领域大模型:心理健康大模型漫谈、医疗健康大模型孙思邈、教育大模型锦鲤。
据颜鑫介绍,在做模型选择时他们主要关注三个问题:是否具有可持续、生态是否丰富、能否满足场景需求。他坦言,他们没有资源从头训练一个基座模型,从市场上选模型第一个考量就是,它背后的机构能不能给模型很好地背书,能不能持续投入基座模型及其生态建设。
在颜鑫看来,阿里云能把通义千问720亿参数模型开源出来,说明在开源上是有决心、能持续投入的,而且还能最大限度发挥生态的力量,匹配上下游的环境。
有鹿机器人创始人、CEO陈俊波指出,通义千问系列开源模型可以提供方便的工具链和几乎不影响性能的特式量化模型,这对于大模型与嵌入式设备的结合来说非常有吸引力。
事实上,这也是通义千问开源模型的优势所在。由于开源比较早,阿里云的开源生态其实已经初具规模,通义千问开源模型累计下载量已经超过150万,催生出了几十款新模型、新应用。这些开发者给通义千问提供了来自应用场景的充沛反馈,使得开发团队能够不断优化开源基础模型。
随着越来越多的开发者和企业加入到开源模型阵营,开源模型的生态逐渐形成气候,“高质量开源基础大模型-大模型优化-AI应用创新”的商业化落地发展路径也变得清晰起来。
在未来速度联合创始人兼CEO秦续业看来,开源大模型在B端大有可为,企业级用户更在意的是能不能解决问题,而非要求模型能力面面面俱到。开源大模型更可控、定制化强、更具性价比。具体而言,经过简单微调,开源大模型能满足很多B端场景需求,同时开源大模型推理成本大约只有闭源收费大模型的1/50。
有分析人士指出,对于科技企业而言,开源模型有利于快速打开市场,为潜在的商业化铺路。不过,如何提升开源大模型的稳定性和准确率,解决用户的多元化复杂需求,成为行业下一步需要思考的重要课题。
(《财经》新媒体综编)