性能更强还免费!OpenAI出"王炸",会拉大国内外大模型差距吗
中国商报(记者 赵熠如)对话响应速度接近人类水平、可改变说话语气、可理解人类情感,还可以唱歌、讲故事、解方程……OpenAI新一代旗舰生成模型 GPT-4o的发布,让现实更逼近科幻电影。与此同时,GPT-4o依旧主打免费。
业内人士认为,国内大模型目前处于追随阶段,在补齐短板的同时需要多方面创新发力。
功能更强更自然
5月14日凌晨,OpenAI 发布了新一代旗舰生成模型GPT-4o。据OpenAI官网介绍,GPT-4o中的"o"代表Omni,也就是"全能"的意思。
OpenAI首席技术官米拉·穆拉蒂表示,GPT-4o提供了GPT-4的智能水平,但在GPT-4的基础上改进了文本、视觉和音频方面的能力,且将在未来几周内"迭代式"地在公司产品中推出。
据悉,GPT-4o在英语文本和代码上的性能与GPT-4 Turbo的性能相匹配,但在非英语文本上的性能显著提高。GPT-4o可以跨文本、音频和视频进行实时推理,使人机交互更加自然。
GPT-4o的实时语音翻译功能更加自然流畅,可以按要求改变说话语气,还可以进行实时视频交互,并通过人的表情和语调理解判断出人的情绪。除此之外,它还可以讲故事、唱歌、创作、看图解方程式、解答代码问题等。
此外,GPT-4o在理解和生成图像方面的能力也更好,它可以把OpenAI的Logo印到杯垫上,并且拥有3D视觉内容生成的能力,还可以根据文字生成漫画分镜。
与此同时,GPT-4o几乎可达到无延迟响应,其最快可以在232毫秒的时间内响应音频输入,平均响应时长为320毫秒,这与人类在对话中的响应时间相似。
"GPT-4o的表现非常惊艳。这也再次证明了,人工智能发展非常迅速,其正在快速融入并改变我们的生活生产方式。所以,我们积极拥抱这一轮新的科技革命非常重要。"西南证券传媒首席分析师刘言对中国商报记者表示。