OpenAI Codex负责人：IDE已死，产品经理正在消亡

但一旦你建立了一个基础：人们每天都在使用你的工具；他们会对它进行配置；而且每用一次，工具就变得更好；那么再进一步让它在云端独立运行，其实只是一个非常小的跃迁。所以我认为，现在是我们重新构建云端产品、并让它与本地产品高度紧密集成的时候了。事实上，它们已经在一定程度上是集成的。

第二件我想做得不一样的事，是开始更加认真地思考瓶颈问题。今天，代码生成本身几乎已经变得微不足道了。真正困难的是：代码评审；我们如何判断代码质量是否足够好？我们如何确认自己正在做"正确的事情"？这些瓶颈依然被严重低估，也严重缺乏投入。

我希望我们能走向这样一个世界：你可以信任一个agent，让它完整地负责一个微系统或内部工具，能够独立完成完整的迭代闭环，包括吸收来自用户的反馈，而不必每一步都经过人工审查。这是一个极其困难的问题--不仅是智能层面的挑战，也是安全与控制层面的挑战。

Harry Stebbings：那我们到底应该在benchmarks和evals（评测）上放多大的权重？

Alexander Embiricos：我觉得这个答案你可能会觉得有点烦：要放"一定的权重"，但不是全部。在我看来，benchmarks在衡量"智能水平"方面非常有用，尤其是在eval还没有被刷爆之前，当你看到这些基准测试出现实质性进展时，它们非常有价值。

但你必须把这一点和另一件事结合起来看："使用这个模型的感觉如何？"而这一点，完全是感觉驱动的。无论是和内部同事交流，还是和模型的客户交流，我总是会感到惊讶--人们对模型的评价，在很大程度上是基于感觉的。

智能分发的终局：当 AI 成为像 Slack 一样的"工作重力中心"

Harry Stebbings：生活本身就是vibe驱动的。人们更愿意和自己喜欢的人一起工作。从投资的角度来看，我需要思考这个市场最终会走向怎样的终局状态。它会像Uber和Lyft那样，绝大多数市场集中在两家公司手中？还是会像AWS、Azure、Google Cloud那样，形成33/33/33的格局？

Alexander Embiricos：我认为最终可能会是更少的参与者，在长期捕获绝大部分价值。原因在于--也许这个观点有点"辣"，但我认为我们正处在一个暂时性的阶段。现在，agent在coding方面非常强；如果你回看去年，可能很多人以为agent也会在其他领域同样强，但那并没有发生。

所以从整个行业来看，我们目前只有coding agents拥有PMF（产品市场匹配）。此外还有一些非常狭窄的使用场景，比如客服。但我认为这很可能只是暂时的。从长期来看，我们会拥有那种几乎什么都能帮你做的agent。你只需要和一个超级助手对话；如果你在某个具体职能上需要深入操作，再进入对应的UI。

在那样的世界里，你并不希望公司里有12个agent，让员工自己去搞清楚该和谁对话。因为那样他们无法形成熟练度，而如果没有熟练度，他们也不会把自动化真正引入自己的工作。但如果你有这样一个"什么都能聊"的统一入口，新员工入职时只需要被告知："你有任何需求，就去跟它聊。"那么人们就会形成肌肉记忆，它会成为工作的重力中心，自动化也会自然地被引入。

作为构建ChatGPT的团队，我们在交付这种未来形态上处在一个非常有利的位置，我打一个可能有点牵强的类比。我以前在Dropbox工作，那是在Slack还没有真正崛起之前。当时我们曾经思考过一个问题：人们到底应该在 Dropbox的文档里评论，还是应该去Slack里讨论这些文档？

OpenAI Codex负责人：IDE已死，产品经理正在消亡(12)