AI三巨头集体撞墙，AI代理成救命稻草？OpenAI押注AI代理“Operator”

OpenAI、谷歌和Anthropic，这AI三巨头，最近好像集体撞墙了！烧钱烧得越来越猛，模型越做越大，结果发现，性能提升越来越小，性价比越来越低，甚至还不如以前！

内部人士爆料，OpenAI的Orion项目，也就是GPT-4的继任者，在9月份搞出来的模型，在处理没见过的新代码问题时，表现差强人意，居然连基本的代码题都答不对！经过几个月的调教和优化，还是达不到OpenAI想要的发布标准

Two people familiar with OpenAI’s Orion project say the September 2024 model fell short when trying to answer coding questions it hadn’t been trained on, and despite months of post-training adjustments, it’s still not at the level OpenAI wants for user release until early next year

谷歌那边也好不到哪去。他们即将推出的Gemini模型，被寄予厚望，号称要全面超越GPT-4。但据说，Gemini的实际表现并没有达到谷歌内部的预期，甚至有些令人失望。最近的更新还净是些花里胡哨的图像生成功能，对模型底层能力的提升却很有限。这是不是有点舍本逐末，把重点放错地方了呢？

Three people with knowledge of Google’s development say the upcoming Gemini is not living up to internal expectations, with recent updates focusing on features like image generation rather than fundamental model improvements

Anthropic更惨，Claude 3.5 Opus直接延期发布，“即将推出”的字样也从官网上悄悄撤了。原因？内部评估显示，模型性能提升太小，与它日益增长的体积和运营成本不成正比！这是花大价钱胖了，却没长个儿啊！

According to two sources, Anthropic has delayed Claude 3.5 Opus release and removed “coming soon” mentions from their website after finding the model’s performance gains didn’t justify its increased size and operational costs

转向AI Agent

不过，这三家公司依然嘴硬，对外宣称对AI的未来充满信心，并表示正在积极探索新的方向。他们现在不执着于盲目地把模型做大了，而是转向了新的方向，比如AI代理和推理能力的提升

Sam Altman又画了个大饼，说今年晚些时候会有“非常棒的版本”发布，并且暗示AI Agent将会是下一个重大突破

具体来说因为大模型的瓶颈，OpenAI有个新动作：他们正在秘密研发一个名为 “Operator” 的AI代理工具。这个工具不是一般的聊天机器人，它可以像你的私人助手一样，帮你写代码、订机票、处理邮件、安排日程，各种琐碎的电脑任务都能干！据说计划明年1月发布一个研究预览版，先给开发者们尝尝鲜，并通过API接口开放给开发者使用

这波操作，其实也反映了整个行业的趋势。Anthropic和微软最近也发布了类似的AI代理工具（用AI代理操作计算机），谷歌据说也在紧锣密鼓地研发代号为 “Jarvis” 的AI代理。看来，AI代理才是下一个风口，各大公司都在抢滩登陆！或许，AI代理真的能为AI发展注入新的活力，打破当前的瓶颈

Altman上个月还在Reddit的AMA（Ask Me Anything）活动上暗示过，说下一个让人感觉像是巨大突破的进步将会是AI代理。看来，单纯增大模型规模这条路可能要走不通了，只能另辟蹊径了

不过OpenAI的研究人员Steven Heidel认为：