AI智能体元年真来了？这次中国与OpenAI站在同一起跑线

才刚刚1月，OpenAI就正式宣布进军AI智能体领域，中国公司智谱也推出新一版的GLM-PC 1.1。从回答问题到执行任务，AI智能体元年真的来了？

当地时间1月23日，美国人工智能公司OpenAI正式推出首款AI智能体Operator（意为操作员），这是OpenAI的首个AI智能体。Operator号称能够模拟人类操作浏览器完成购物、订餐、论文整理等操作，通过融合视觉识别与高级推理的CUA模型实现复杂步骤规划。

点击查看大图

具体的工作流程上，Operator会根据需求捕获屏幕画面，再将其添加到模型上下文，并通过GPT-4o的视觉能力准确理解界面内容，再依靠强化学习的推理能力制定下一步计划，最后使用虚拟鼠标和键盘，精确执行点击、滚动或输入的界面操作，直到任务完成或需要用户输入。

OpenAI创始人奥特曼介绍称，目前Operator将以每月200美元的订阅费，率先面向美国ChatGPT Pro用户开放测试。

而就在同一天，中国公司智谱AI也对外发布了去年12月公布的AI智能体GLM-PC 1.0的升级版 -- GLM-PC 1.1，本次更新优化多种任务流程，甚至被业内人士称为"2.0也不为过"。智谱的 GLM-PC 不仅能自动处理文件、发送定制化微信内容，还通过借鉴人类的左右脑分工，以"左脑逻辑+右脑感知"的双引擎架构实现多模态交互，甚至生成代码与视频内容，展现超越文本生成的操作层突破。

其中，智谱公众号文章还实机演示了在淘宝中一键加购辣条等产品、截取小红书春节档图片转发微信群聊并询问观看意愿、以及给这个群聊的成员每人单独小窗发送一段2025年新春祝福语和AI自动生成的蛇年主题图片。

点击查看大图

新春祝福甚至可以按照每人名字定制发送。智谱AI

智谱介绍，新版 GLM-PC背后是智谱自主研发的多模态模型 CogAgent 与代码模型 CodeGeex 的深度融合。以代码形式指挥工作流程和工具调用，并强化了深度思考模式下的规划、推理、反思能力，从而能够稳定高效地应对复杂场景与任务。实际执行时，GLM-PC 能感知多层环境反馈，协助反思，以有效自我纠正与优化。

当前，通用人工智能技术已进入OpenAI所分类的L3级（智能体）阶段，核心竞争围绕各家企业模型的自主操作能力展开。

除了OpenAI和智谱，谷歌、微软、Anthropic以及国内等众多AI公司也都相继推出类似产品。上海人工智能产业研究院院长朱兆颖此前就曾预测，AI智能体将是生成式AI的下一个前沿，预计2025年市场规模将达100亿美元以上，2025年将成为AI智能体大放异彩的应用元年。

本文系观察者网独家稿件，未经授权，不得转载。