OpenAI推出GPT-4o mini，号称“最具成本效益的小模型”

美东时间7月18日，OpenAI推出GPT-4o mini，并声称这是"最具成本效益的小型模型"。GPT-4o mini预计将通过让智能变得更加实惠，显著扩大使用AI构建的应用程序范围。

据OpenAI发布的消息，GPT-4o mini在MMLU（大规模多任务语言理解，衡量模型广泛的世界知识和解决问题的能力）上的得分为82%，比另外两款低成本竞品更高--Google的Gemini Flash得分为77.9%，Anthropic的Claude Haiku得分为73.8%。目前，GPT-4o mini在LMSYS排行榜上的聊天偏好方面优于GPT-4.

GPT-4o mini已经在几个关键基准上进行了评估，涉及文本和视觉的推理任务、数学推理和编码任务、多模态推理，结果均优于其他小型模型。

各种评估基准下的模型评估分数OpenAI官方网站

GPT-4o mini还在API中支持文本和视觉功能，未来还将支持文本、图像、视频和音频的输入和输出，并且拥有截至2023年10月的知识。得益于与GPT-4o共享的改进的tokenizer（编译器），GPT-4o mini处理非英语文本方面也更具成本效益。

GPT-4o mini成本更低、延迟更低，能够完成更多的任务，例如调用多个API（应用程序编程接口）、传递和记录大量完整的代码库或对话记录、更快速、实时地与使用者聊天等。

作为模型开发过程的一部分，OpenAI 已经与一些值得信赖的合作伙伴合作，以更好地了解GPT-4o mini的使用场景和局限性。目前已与Ramp和超人等公司进行了合作，反馈发现在执行从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件响应等任务时，GPT-4o mini的表现明显优于GPT-3.5 Turbo。

考虑到价格因素，轻量化且廉价的"小而精"AI模型可能更受企业欢迎，小模型的相关开发竞争激烈。谈及为何没有更早地推出"小而精"的模型时，OpenAI的API产品负责人Olivier Godement说，"我们的使命是使用最前沿技术，构建最强大、最有用的应用程序，我们当然希望继续做前沿模型，推动技术进步……但我们也希望拥有最好的小模型，我认为它会非常受欢迎。"

OpenAI称，开发过程中的每一步都考虑了安全性。开发时会过滤掉仇恨言论、色情信息、个人隐私信息等不宜模型学习和输出的内容，并采用自动和人工（超过70位来自社会心理学和错误信息等领域的外部专家）对模型进行了评估，以识别潜在风险。GPT-4o mini是第一个应用指令层次结构的模型，有助于提高模型抵抗越狱、即时注入和系统即时提取的能力，这使得模型的响应更加可靠，并有助于使其在大规模应用中更安全地使用。

自2022年推出功能较弱的模型text-davinci-003以来，GPT-4o mini的每token成本已下降99%。GPT-4o mini定价比之前的Frontier型号便宜一个数量级，比GPT-3.5Turbo便宜60%以上。在ChatGPT中，免费版、Plus版和团队版用户已经能够使用GPT-4o mini替代GPT-3.5，企业用户也将从下周开始使用。