才刚刚1月,OpenAI就正式宣布进军AI智能体领域,中国公司智谱也推出新一版的GLM-PC 1.1。从回答问题到执行任务,AI智能体元年真的来了?
当地时间1月23日,美国人工智能公司OpenAI正式推出首款AI智能体Operator(意为操作员),这是OpenAI的首个AI智能体。Operator号称能够模拟人类操作浏览器完成购物、订餐、论文整理等操作,通过融合视觉识别与高级推理的CUA模型实现复杂步骤规划。
具体的工作流程上,Operator会根据需求捕获屏幕画面,再将其添加到模型上下文,并通过GPT-4o的视觉能力准确理解界面内容,再依靠强化学习的推理能力制定下一步计划,最后使用虚拟鼠标和键盘,精确执行点击、滚动或输入的界面操作,直到任务完成或需要用户输入。
OpenAI创始人奥特曼介绍称,目前Operator将以每月200美元的订阅费,率先面向美国ChatGPT Pro用户开放测试。
而就在同一天,中国公司智谱AI也对外发布了去年12月公布的AI智能体GLM-PC 1.0的升级版 -- GLM-PC 1.1,本次更新优化多种任务流程,甚至被业内人士称为"2.0也不为过"。智谱的 GLM-PC 不仅能自动处理文件、发送定制化微信内容,还通过借鉴人类的左右脑分工,以"左脑逻辑+右脑感知"的双引擎架构实现多模态交互,甚至生成代码与视频内容,展现超越文本生成的操作层突破。
其中,智谱公众号文章还实机演示了在淘宝中一键加购辣条等产品、截取小红书春节档图片转发微信群聊并询问观看意愿、以及给这个群聊的成员每人单独小窗发送一段2025年新春祝福语和AI自动生成的蛇年主题图片。
新春祝福甚至可以按照每人名字定制发送。智谱AI
智谱介绍,新版 GLM-PC背后是智谱自主研发的多模态模型 CogAgent 与代码模型 CodeGeex 的深度融合。以代码形式指挥工作流程和工具调用,并强化了深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。
当前,通用人工智能技术已进入OpenAI所分类的L3级(智能体)阶段,核心竞争围绕各家企业模型的自主操作能力展开。
除了OpenAI和智谱,谷歌、微软、Anthropic以及国内等众多AI公司也都相继推出类似产品。上海人工智能产业研究院院长朱兆颖此前就曾预测,AI智能体将是生成式AI的下一个前沿,预计2025年市场规模将达100亿美元以上,2025年将成为AI智能体大放异彩的应用元年。
本文系观察者网独家稿件,未经授权,不得转载。