OpenAI、谷歌加速AI商业落地 大模型竞争加剧对国内厂商影响几何?

作者 | 《财经》新媒体 撰稿人 王婧雅 编辑 | 高素英  

2024年05月15日 19:25  

本文3523字,约5分钟

大模型赛道竞争持续加剧,人工智能领域两大巨头OpenAI和谷歌在两日内相继发布或更新了旗下的大模型产品。5月14日,OpenAI发布的最新旗舰型号的大模型GPT-4o在文本、视觉和音频方面的能力都得到了全面的增强;5月15日,谷歌在2024年谷歌I/O开发者大会上也宣布了其大模型Gemini 1.5 Pro的重要升级,将Gemini的Tokens窗口从100万扩大至200万,拓展了其同步处理多模态信息的边界。

值得关注的是,GPT-4o向全部用户免费开放,并下调了API使用价格,使得大模型更加亲民、易用。GPT-4o的出现和Gemini的升级都使得大模型在多模态交互技术能力上得到了明显提升,这些进步不仅降低了大模型的使用成本,还使得AI在更多场景中得以落地应用。

在谷歌、OpenAI卷技术的同时,国内厂商也在积极布局大模型领域。近一个月以来,百度、腾讯、阿里云、科大讯飞、字节跳动等企业纷纷推出或升级了自己的产品和工具,以期在日渐激烈的市场竞争中占据有利地位。有观点认为,从技术上来看,GPT-4o和Gemini 1.5 Pro为AI行业指出了新的发展方向,当大模型在多模态交互、创作等方面能力不断进步后,AI技术有望在各类硬件产品中落地。而从商业化角度来看,截至目前,谷歌、OpenAI对国内市场冲击较小,受经营环境影响,国内厂商仍占据国内市场的主要位置。

GPT-4o支持跨语音、文本和视觉推理

此次更新的GPT-4o在语音交互方面不仅可以在用户打断对话后继续讨论话题,而且对话更具情感;视觉交互方面,类似于谷歌Gemini,GPT-4o已经能够通过图像信息进行推理分析。

OpenAI研究负责人MikeChen现场演示时,他向GPT-4o提问称:“正在舞台现场展示有些紧张,应如何缓解?”GPT-4o除了给出了通过呼吸帮助他冷静的方案,还鼓励他称他是一名专家。随后MikeChen发出了急促的呼吸声,GPT-4o识别到告知他现在呼吸很快需要慢一些并带领他进行呼吸训练。

随后,MikeChen又让GPT-4o给他的朋友讲一个故事,没有等到故事结束,现场便让GPT-4o改变为夸张、表现力、戏剧性机器人、唱歌等风格的讲述故事,每一次打断后,GPT-4o都可以按照要求并接着讲故事。

OpenAI研究负责人Beridzov在现场演示了GPT-4o视觉能力。当Beridzov张嘴笑时,GPT-4o可以根据图像分析Beridzov快乐的情绪。紧接着,Beridzov在一张纸上写出“3x+1=4”这个方程式后,GPT-4o根据题目内容一步一步教Beridzov解题,并根据Beridzov书写出来的答案判断回答是否正确。而当Beridzov画出“i‘爱心图案’ChatGPT”后,GPT-4o自动将爱心图案理解为喜欢的意思表达了感谢。

尤为关键的是,GPT-4o的视觉推理能力还可以处理图表。根据ChatGPT客户端的视觉能力,GPT-4o可以看到所在设备屏幕的一切内容,当屏幕内容为代码时,可以要求GPT-4o解读代码,当屏幕出现图表时,GPT-4o也能够分析图表。

GPT-4o并非没有“失误”。笔者注意到,在现场演示中,GPT-4o在视觉交互中误将人识别为桌子,在调整后识别正确;此外,还有一次GPT-4o没有看见要识别的内容时就表示自己已经看到了。不过,这两次“失误”出现后,GPT-4o都以幽默的方式化解。

“互相打断、背景噪音、不同的说话语气,这些对于AI相当复杂。”OpenAI的首席技术官Mira Murati称,到目前为止,OpenAI的线上语音模式是由语音转录文本、大模型、文本转语音三部分结合在一起来完成用户体验交付,这也给实际体验带来了很大延迟,打破了人与ChatGPT协作的沉浸感。GPT-4o改变了未来人机合作范式,GPT-4o一切都是原生支持,它能够跨语音、文本和视觉进行推理。有超过一亿人用ChatGPT创造、工作、学习,适用于50种不同语言。

谷歌升级Gemini扩大应用场景

就在外界用“炸裂”评价OpenAI推出的GPT-4o时,紧接着谷歌在2024谷歌I/O开发者大会上宣布升级或发布了大模型、智能体等多款产品,并将大模型融入到谷歌搜索、照片、安卓、邮件等应用中。

谷歌CEO Sundar Pichai表示,谷歌Gemini 1.5 Pro大模型升级后将把100万Tokens的窗口扩大至200万Tokens,以拓展同步处理多模态信息的边界。在长上下文和多模态两项技术结合后,AI表现更加智能。

当Sundar Pichai让Gemini 找出某一主题类邮件时,Gemini会自动提取相关邮件和邮件中PDF等文件,汇总并加以总结告诉用户重要的事件时间节点。Gemini甚至可以总结邮件中视频录音内容都讲了些什么,如果用户需要回复,也只要给Gemini指令,它就可以帮助用户起草回复内容。

与OpenAI类似,谷歌也发布了快速响应、低成本模型Gemini 1.5 Flash。谷歌DeepMind联合创始人、CEO Demis Hassabis表示,有些应用需要更低的延迟和服务成本,Gemini 1.5 Flash的设计目标就是快速且经济高效提供大规模服务,同时仍具多模态、推理功能和长上下文。

借助更为强大的大模型能力,AI可以接受、记住、理接所接收的内容,并在更广泛的现实场景中落地实现与人交互,成为人们在现实生活工作中的助手。Demis Hassabis现场播放了一段关于AGI的万能助手Project Astra的演示视频。

视频中,Project Astra已经具备了空间理解、视频处理和记忆能力。当摄像头对准桌上的音响时,Project Astra可以识别并准确告知每个喇叭负责哪个音域;当镜头对准桌上电脑显示的代码时,Project Astra可以进行分析。

如果说这些内容与GPT-4o的交互推理能力类似,那么随后展示的大模型在空间感知和记忆能力则进一步凸显了大模型的智能化。

画面一转镜头对向了窗外后,Project Astra即刻告知了目前所在地点。尤为关键的是,当用户走过桌面并询问Project Astra“你还记得我的眼睛在哪里吗?”Project Astra准确描述眼镜在桌子上的具体位置。

事实上,当AI足够智能,它不仅能够充当助手,更可以进行创作。目前,随着大模型能力的不断提高,AI在图像、音频、视频等方面的创作能力正在不断提高。谷歌也突出了文生图工具Imagen 3、与Youtube&音乐家合作的“AI音乐沙盒”,以及最新的视频生成模型Veo。

国内厂商影响几何?

在谷歌、OpenAI开“卷”的同时,国内厂商也在加速大模型布局。近一个月来,国内大模型厂商消息不断。

百度在一个月前发布了包括智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、各种尺寸的模型定制工具ModelBuilder在内的三个“开箱即用”的AI开发工具;阿里云通义大模型升级2.5版本升,并表示其中文性能全面赶超GPT-4 Turbo ;腾讯则全面开源了旗下混元文生图大模型。

不过,从两天的大模型可以发现,随着多模态交互技术落地,大模型的应用范围越来越广,在实际使用中的效率和用户体验都得到显著提升。与此同时,谷歌和OpenAI也正在降低大模型的使用成本。

“从技术上来看,国内大模型厂商或与谷歌、OpenAI存在一些差距。”国内算力厂商内部人士告诉笔者,造成差距的原因在于芯片、算力、算法、应用等多个纬度。

而在商业化方面,尽管GPT-4o因向全部用户免费开放,并也下调了API使用价格,相比去年发布的GPT-4Turbo,GPT-4o在速率提高两倍的基础上,价格降低了50%,允许的单位时间调用次数也提高到了原来的5倍,成为了市场的关注焦点之一,但国内大模型厂商则占据优势。

笔者注意到,对于C端用户,国内不同厂商采取了不同的运营方式。百度文心大模型4.0版本收费59.9元/月;月之暗面Kimi、阿里云通义千问、科大讯飞星火大模型则采用免费的方式;而对于B端用户,国内大模型厂商往往采用收费的方式。

一位国内大模型厂商内部人士表示,实现商业化是一些国内大模型厂商的目标。目前来看,受环境等因素影响,国内市场多以国内大模型厂商的技术为主。