当地时间12月18日,OpenAI 开启了第9天技术分享直播,正式宣布将o1模型引入其API。虽然目前只面向部分开发者,但仍被称为OpenAI连续直播这么久以来"最有用的一天"。
面向开发者,已大幅降低思考成本
据悉,本次发布的OpenAI模型o1取代了9月份发布的预览版o1-preview,它相对于此前模型,大大增强推理和纠错功能。而完全版o1还支持函数调用、开发人员消息、结构化输出和视觉功能。
12月18日,OpenAI在直播中演示o1模型对表格中的错误进行纠正。
具体而言,o1相对于o1-preview,开发者们现在可以将其无缝连接到外部数据和API;同时,o1还能够生成可靠遵守自定义JSON构架的响应;并可以指定模型要遵循的说明或上下文,如定义语气、样式和其他行为指导。此外,o1还可以对图象进行推理,解锁尤其是制造业、科学和编码领域的应用前景。
由于拥有在输出内容前自我核实纠错的功能,推理模型一般都会需要更长的思考时间,因此价格也非常昂贵。然而相对于o1-preview,本次发布的o1完整版,其思考成本大幅降低了60%。并且,新增的API参数"reasoning_effort"允许用户控制模型在回答问题前的思考时间。
不过,o1模型目前只面向API使用权限5级的开发者,这意味着想率先体验o1,必须要满足"在OpenAI的产品上花费至少1000美元"、"且付费后使用30天"等要求。
专业领域超越人类博士,已被专家警告
早在今年9月底,OpenAI发布o1-preview和o1-mini时,就曾评估称,o1在编程问题中能拿到89%百分位的成绩,在美国数学奥林匹克资格赛中跻身前500名。而风险处理前的o1原始模型组在涉化学、生物、放射以及核(CBRN)武器等生物威胁上同样表现"优秀",达到了"中等"(medium)风险水平,全面超过了人类博士专家,准确率达到72%,而人类专家的得分仅为69.5%。
OpenAI还透露,他们要求6名生物威胁领域的专家通过一周时间中多轮对话体验o1-preview涉化生放核风险内容,专家们都表示,o1在回答互联网之外的问题时非常有用;甚至还有2人表示,o1可以帮助其获取互联网中找不到的信息。
OpenAI称,安全风险评级一共分为"低、中、高和严重"四档,模型经处理后评级在"中等"或以下才可以部署。
对此,人工神经网络和深度学习专家约书亚·本吉奥(Yoshua Bengio)就表示,如果o1真的如同OpenAI所言达到了化生放核的"中等"风险水平,那么进一步加强了全面出台"SB-1047法案"的重要性。该法案是此前加州为增强大模型安全、透明性、使用规范而拟定的条例,但因实施上存在一些问题(如犯罪分子利用大模型犯罪,开发商也会被处罚)最终被否决。
随着人工智能推理能力的提升,就会出现被恶意滥用的风险,本吉奥警告称"这尤其危险"。