AI助理
AI助理
发布于 2025-07-26 / 27 阅读
0

专访理想基座模型团队为什么我们不能做具身的前3这是我们必须做到的新皮层对话

图片0

记者:吴洋洋、王杰夫

摄影:王晓东

编辑:王杰夫

Key Points

理想同学从车机进入手机,它认为只有参与更激烈的竞争,才能变更强;

大模型时代,产品的研发范式变了,从交付逻辑,转向能力提升逻辑;

AGI的核心不是语言智能,而是具身智能;

AGI的L1和L2阶段是语言模型,L3之后需要CoA(行动链)能力,基座模型在从L2向L3演化;

更可能赢得L3竞赛的是拥有足够多AI终端的公司;

DeepSeek实现了L2级模型的中国赶超,L3级模型的DeepSeek时刻可能出现在理想。

去年12月27日,当李想对外喊出理想要在基座模型能力上进入「行业前3」的目标时,外界一片讶异,因为这意味着包括月之暗面、MiniMax、智谱等在内的AI六小龙和包括豆包、通义等模型所在的AI大厂都会成为理想大模型要面对的对手。而当时,理想的大语言模型才更新到了第二代(MindGPT 2.0),既不具备多模态能力也不具备推理能力。其终端应用「理想同学」也只是个车机产品,尚未进入手机端,外界对它的认知是个服务于智能座舱的车内助手,用户规模不会超过其当时的车主数量——100万。同一时刻,豆包在手机移动端的月活跃用户量已达到7523万(QuestMobile数据)。

然而进入2025年以来,DeepSeek R1模型的出现让很多看似不可能的事开始变得可能。理想基座模型负责人陈伟对「新皮层」称,DeepSeek R1的出现比他们预测的行业节点提前了半年左右,因为OpenAI去年9月发布o1模型,按照技术扩散周期,他们预判其他公司开始具备同样能力大概会在今年四五月,但DeepSeek今年1月就把技术突破并开源了。这个行业变量加速和改变了很多事。

被加速的事项之一是L3模型。在陈伟看来,包括OpenAI o1和DeepSeek R1在内的推理模型都是L2级别的基座模型,而既能推理又能调用工具的agent模型将会是基座模型的L3。陈伟认为,OpenAI和Anthropic都已经在朝着L3努力了,它们在发布OpenAI o3和Claude 4时都强调了其agent能力,其中可能已经开始加入了CoA(Chain of Action,行动链)的训练,而不只是CoT(Chain of Thought,思维链)。陈伟称,理想也已经在开发这样的拥有CoA能力的模型,下半年就会发布。

行业被加速后,基座模型的定义也随之改变。陈伟认为,AGI的L1和L2阶段都会是语言模型主导,到L3阶段之后,就会是多模态的agent模型才能胜任,比如数字世界的agent模型再往下发展,就需要能够在物理世界行走和通过调用工具解决任务的具身agent模型。

陈伟称,AGI的核心不是语言智能,而是具身智能,因此,「基座模型行业前3」并不是一个随口一说的大话,而是一个经过内部论证的可被落地的战略。当行业开始进入具身赛段,理想就会开始拥有角色,而只有语言模型、没有足够多可移动的终端硬件的公司,很可能并不能进入AGI决赛。

图片1

左:理想基座模型负责人陈伟 右:理想同学产品负责人张文博

理想的很多动作显示,它认为AGI的具身赛段已经开始。动作之一是架构调整,今年年初,理想CEO李想本人从汽车终端抽身出来,all in AI,包括陈伟在内的部分智能座舱团队成员也被抽离出来,成立了一个基座模型团队,陈伟担任负责人。这个团队不仅负责开发理想同学背后的语言模型、语音模型,还为智驾团队提供基座模型能力,推进语言模型MindGPT和智驾模型MindVLA的融合,为一个更统一的具身基座模型做准备。另一个动作,则是成立了两个新的机器人部门,传闻其中的穿戴机器人将由理想同学产品负责人张文博负责。

陈伟和张文博没有就新成立的机器人部门透露更多信息,他们确认的是,理想将有更多汽车之外的硬件推出。

以下为「新皮层」与理想基座模型负责人陈伟和理想同学产品负责人张文博的对话:

理想同学的MBTI是ESFJ

新皮层:理想同学今年上半年发布了不少新模型和产品更新,迭代方向是什么?

陈伟: 上半年,我们主要提升了理想同学背后的基座模型MindGPT的能力,主要在两个方向发力。第一 是在MindGPT 3.0中增加了结构化的思维链,它让用户对结果可信度有很大提升。第二 是推出了端到端的语音模型MindGPT-4o-Audio,实现了低延迟、全双工的自然对话,让AI像人类一样「边听边说」。

新皮层:理想同学还一上线就推出了AI播客,对口语能力的强调主要是因为车机场景的需求吗?

陈伟: 不只是车机,我们已经发布了手机和PC的理想同学。强调口语能力是因为我们认为未来人机交互往下演进的过程中,口语化是拉近人和AI最重要的交互方式,我们毕竟还是希望让理想同学将来能成为用户的家人。它除了要有智商,情商也要上来。

张文博: 更新MindGPT模型之前,我们就和车主和车主的小朋友都深入交流过。无论在车上还是手机上,用户和AI对话时都会遇到问题,比如在手机上可以使用理想同学App做语音输入,但每次要说话都得按一次按键,过程中还得按住这个键,这对小朋友非常困难。小朋友的说话方式是不连续的,他们常常不会一次性把话说完,而是说几句话就停顿一会,然后再接着说。另外,口语交互和文字交互不同的地方在于,传统模型都是用户输入很短的文字,模型给出很长的回答,这对小朋友和成人体验都不友好。口语交流是一问一答、一来一回的。家长也鼓励小朋友跟AI聊天,因为大家都认为AI是未来趋势。

新皮层:对理想同学来说,小朋友的体验反而可能比开车那个人的体验更重要?

张文博: 一定意义上是的。我们其实还是希望AI能成为家人。对于家人这个形态,连续自然交互是我们走出的第一步。

新皮层:家人角色和普通助手会有什么不同?它会不会需要比助手更主动?

陈伟: 这是一个渐进过程。主动交互是往后的部分,它基于模型能力的提升,以及作为助手时期和用户关系的建立和逐步深入,之后,它才有可能变成一个更自然的、会主动提供服务的存在。关系这个东西非常重要,它会决定你怎么看待这个助手,以及对于这个助手的预期是什么样子。所以我们要发展的AI也是分为三个阶段,第一是增强能力,第二是成为助手,第三是变成家人。

张文博: 这其实是一个系统性工程。理想同学的姓名、人设、形象,甚至MBTI、故事设定、整体技能,我们有一个档案库。比如说理想同学的MBTI是ESFJ,因为我们希望它是一个稍微偏外向的性格,很容易就跟人聊得起来,同时它偏感性,能够和用户感同身受,能给到用户情感上的反馈,同时它也是一个非常有规划性、有条理的角色,能靠谱地帮你去完成一些任务。这是我们希望理想同学能传达给用户的初始状态。

现在我们让它有了端到端的语音能力,未来我们还会把记忆能力也放到里面来。有了记忆,它和用户的关系才有机会更深入,用户可能只说了一个或几个词儿,它就大概知道我是什么意思。甚至我没有说话的时候,它就猜到我想要什么。这个过程中,信任感就会让它从一个工作上的助手变成家人。

新皮层:小红书在为AI招募人文训练师时,入围的训练师几乎都是INFP,清一色的i人。

陈伟: 我们还是希望理想同学能稍微外向一点。对于主动性这件事,想哥(指李想)之前跟我们在讲,你不要狂刷存在感。所以对于不同的能力,我们要判断它应该在什么时间点发起主动对话是合适的。

现在这个时间点,工作重点还是在于增强理想同学的能力,而不是让它频繁出现打扰用户。在增强能力上,我们做了很多单点的技术突破,比如做声纹、做语音识别、做「方言自由说」,让理想同学能够听懂和说很多方言。还有语音指令遵循,比如打开空调、温度调到多少、音量调到多少。再往下走的话,agent的能力会越来越强,它(指理想同学)能够自主完成、自主解决问题的能力会越来越强。

新皮层:做家人的话,会不会让它的智能打折扣?因为陪伴型AI对智能的要求就没那么高,甚至逻辑能力变强之后,可能影响情商。

陈伟: 情商和智商这两件事儿其实永远不冲突,它对于一个人来说是不可拆分的,对AI也是。我们在强化学习过程中发现了一个现象。我们之前认为,让一个AI把所有场景、各个领域、不同类型的东西都学一遍,它才能具备逻辑推理。其实不是这样的,我们发现AI只要有代码能力、数学或者STEM(Science、Technology、Engineering和Mathematics)这些领域的学习,把这些人类在逻辑推理上最结构化的一套东西学好了,它的智商和情商会同步提升。

张文博: 智商和情商你把它交叉在一起的时候,恰恰是智能最高阶的表现。比如幽默这件事儿,这是人类独有的高阶智能,现在没有任何一个模型能给你讲好一个笑话,没有一个模型能达到李诞那个水平。

从车机到手机,参与更大的竞争,才能变更强

新皮层:理想同学早在2018年就推出了,当时只存在于车机、只服务购买了理想汽车硬件的客户,为什么今年要进入手机端?

陈伟: 手机和PC对我们来说还是很重要,让我们真正有机会把一个车载大模型演进为一个通用大模型。当你进到手机、PC的时候,你面对的是更加通用和广泛的场景,同时也面临整个AGI行业的竞争。只有看到最强的对手,你才知道你应该怎么做。

新皮层:从车机进入手机,你们看到了什么?

陈伟: 上了手机端之后,我们首先看的事情是怎么让我们的模型跟DeepSeek一样强,这促使我们在4月发布了推理模型MindGPT 3.0(注:这个进度比MiniMax推出类似模型都要早)。其次,我们毕竟不是一个纯模型公司,我们还是要阶段性地有产品落地,要学习如何提升用户的体验。

例如落地过程中怎样面对幻觉问题,什么样的能力和状态是用户能接受的?我们从DeepSeek上学到了思维链的重要性,现在你没有思维链,都没人说你大模型能力好。所以4月发布MindGPT 3.0时,我们不仅增加了思维链,同时还在思维链的可读性上下了功夫,因为很多用户关心推理过程可能超过最终结果。

还有豆包的打电话、实时对话功能,它的声音非常拟人、有一定的知识性、也很有趣,那我们应该怎么做?我们觉得我们得快点,它(延时)2秒,我得做到1秒以内。

新皮层:如果不进入手机和PC,只在车机做,就看不到这些?

陈伟: 过去只做车机时,我们做的叫「三助一师」,就是娱乐、出行、用车3个助手,再加1个百科老师,这是在车里高频的4个场景。这4个功能就能解决绝大部分用户需求,那我们还有没有那么多动力去解决长尾需求?研发要不要为长尾的bad case付出那么多研发资源解决问题?但是到了手机、PC上,生产力的需求就上来了,知识问答的广度也上来了,用户的需求变多了,这个东西就会倒逼你。如果你想在竞争激烈的市场上有自己的特色,你就得亲自参与激烈市场的竞争。

新皮层:进入手机端意味着理想同学变成一个真正的toC产品,这对你们的工作方式和内容挑战有多大?

陈伟: 我们确实看到手机端用户问AI的问题跟车机用户非常不同,比如在手机上用户会问财经、健康等非常广泛的问题,车机用户就很少问。所以我们需要大量补充相关方面的知识库和提升RAG检索的质量。

另外,我们内部也讨论说,我们以前做的都叫功能,现在我们做理想同学、做大模型,是在做能力。模型能力是进化逻辑,不是交付逻辑。以前做功能性研发时,有明确的任务需要解决,功能上线了,再持续迭代。整个过程是拼积木的过程,每个研发只做自己的模块。但现在我们就要切换到协作模式,算法团队、研发团队和产品团队我们在做的是一个击鼓传花的事。花只有一朵,就是模型。研发范式变了。

新皮层:交付逻辑下交付的结果是可以衡量的,新的研发范式下如何量化结果?

陈伟: 你会发现产研在这件事情上面的分工出现了很大变化。以前是产品提需求,我研发干活交东西、上线验证。但现在,真正在产品中呈现的能力其实只是模型能力的最小集。模型能力进化的速度其实比产品能想象到的空间还要大。模型跟产品间的边界也不像以前那么清晰了。这个过程中,我们俩(指陈伟和张文博)就要花非常多时间解决模型的评估问题,就是我们到底应该用一个什么样的视角去看待这个模型做得好不好。

新皮层:内部评估一个模型跟外部评估一个模型视角有什么不同?

陈伟: 我们会把AI当成人来看待和评估,有两种模式,一种是不断建更多的评测集,这种评测集可能会从产品那边把评估维度拆得非常细。然后和研发那边共建完之后,我们会去看模型能把这些能力实现得如何。第二是在模型实际做出来以后,我们对它的评价,主要是看用户体验中实际反馈的问题,或者我们会看线上日志,然后在这个过程中建立数据闭环。

做数据闭环就是要从数据中找到聚类问题。以前我们的工作状态是,如果发现这儿有一个bad case,就去修一下,把它解决了就上线更新。之前的技术都有一个清晰的边界,能干什么,不能干什么,现在模型能力的边界没那么清晰,用户也不断在试探你还能干什么。所以这个过程中我们要解决的问题是在能力推出之前,就要自己去找到模型的峰值的体验在哪儿、底线能力在哪儿,然后用数据闭环兜住模型的下限。这是方法论上的变化。

新皮层:对产品端的工作方式转变呢?要像其他ChatBot那样开始在意日活、用户规模了吗?

陈伟: 你说的这些东西重要,但不是Top1。因为我们认为现在的技术演进还处在快速变革阶段。所有的技术研究都是个S型,我们现在看到的是,技术已经进入了S型往上走的快速上升阶段,它还没有走到上面的平稳阶段。在这个快速上升过程中,所谓的DAU、MAU都会因为一个技术突破被全部推翻。

所以在这个事情上,我们关注的是技术能力是否保持在最前面,或者保持在持续突破的状态。对我们来说最重要的东西,是要跟住最前沿的节奏,要不然的话你会被甩开。

我们参与的不是语言模型竞赛,而是具身竞赛

新皮层:每个大模型公司都想跟上行业最前沿变化,理想有什么机制可以抓住它?

陈伟: 我们的愿景是连接物理世界和数字世界,基于此成为全球领先的人工智能企业。那么,具身智能是我们的核心。这个核心其实要解决三个问题,第一是模型的智能水平,第二环境,第三本体。

我们现在在做的大语言模型,核心是在提升模型的智能水平。但语言智能压缩了很多互联网数据后,差不多能学的都已经学到了,模型预训练的scaling law边际收益已经下降。现在大家开始转向让一个训好的模型去跟环境做更多交互,通过强化学习让模型去判断思考过程是对的还是错的,把经验从与环境的交互中积累起来。现在模型已经在数字世界做这样的强化学习,我们认为下一步是把环境从数字世界变成物理世界。

整个AI的决胜点肯定是在具身智能。以此倒推,为了做到具身智能的领先,我们应该在哪些点上布局?我们肯定是要去做人工智能终端,车是具身智能的本体,这是我们的落脚点。

新皮层:李想此前提到,具身智能需要把不同终端的模型统一,目前理想在底层模型统一方面的进展如何?

陈伟: 目前我们面向具身智能的MindVLA模型的核心场景还是在辅助驾驶,面向语言智能的MindGPT模型的核心场景在座舱和手机以及PC端的理想同学。模型尺寸和规模肯定会有差距,但MindVLA的核心能力就是能把感知(Vision)和语言(Lanuage)、动作(Action)这三件事通过一个端到端模型实现,V代表了感知世界,L代表了对语言的理解和规划决策,A代表行动。MindVLA模型和MindGPT模型相比其实只多了一个action。

而在Action的学习过程中,数字世界和物理世界是不同的,数字世界中的VLA不是在开车,而是可能帮用户订了一个酒店、操作了一下浏览器或电脑。而物理世界的行动依赖于本体,类型更加多元。

新皮层:一些机器人公司在尝试过VLA架构后转向了VLM(Vision-Language Model,理想称之为慢系统)+VA(Vision-Action,理想称之为快系统)的分层架构,理想是反向从VLM+VA的双系统端转向了VLA,你们看到了VLM+VA架构的什么问题?

陈伟: 我们看到在端到端VA+VLM架构中,VA模型通常看到视觉信号就直接行动了,L在其中并没有发挥足够的能力,VLM相当于只是为最终驾驶决策提供了一个参考,最终做决策的是VA模型,采不采纳L的建议还是取决于VA模型。

我们现在想做的VLA中的L是直接进入模型决策链路的。当语言开始有了思考和推理,模型未来采取action时才能做出更优选择。其次,有了L才有真正的思维链,模型才能真正通过强化学习实现进化,否则,只有V和A的模型只会模仿,不会真正学习。

新皮层:MindVLA模型是智驾团队主导还是理想基座模型团队在主导?

陈伟: MindVLA是我们(指基座模型团队)和智驾团队深度合作,我们负责提供基座模型能力。

新皮层:底层模型变得更统一之后,理想同学以后也可能会开车?

陈伟: 其实现在(理想同学和智驾的)基座都是统一的。本质上如果说是理想同学会开车,实际上也没毛病。今年3月的英伟达GTC大会上,理想的智驾团队已经发布了MindVLA,L就可以语言交互,所以你对驾驶决策是可以实时去控制和干预的。比如说有一个场景,用户打算在前面那个星巴克停一下,或者再往前面的路口右转,你就可以直接对模型说,相当于你就是在跟一个司机说你的需求,L进去了就会让语言模态成为驾驶决策的核心因素。

新皮层:这是已经实现的功能还是可能实现?

陈伟: 这是我们正在做的。

新皮层:李想去年年底公开提出了一个外界看起来不容易做到的目标,就是在基座能力上要做到业内前三,这是个随口一提的目标还是经过内部测算?

陈伟: 肯定不是随口一说,这是我们内部论证过的。因为这个行业赢者通吃,能活到最后的可能就三五家。问题是,是要做大语言模型的前3,还是做具身智能、VLA模型的前3,我们内部觉得是具身智能。尤其DeepSeek开源后,我们认为语言模型会越来越少出现代差性的东西。

但是回到VLA,回到具身,我们认为我们第一有物理世界的数据。第二,在具身这个场景里面,人形机器人或者其他形态的机器人还在探索期,但智驾已经量产了,它的action其实是非常好的一个场景。第三,在MindGPT这件事上,我们已经进入L2(即推理模型)阶段,现在在往L3(即Agent模型)阶段努力。

所以综合下来,我觉得VL加Action,这是理想的优势。为什么我们不能做具身的前3?这是我们必须要做到的。

新皮层:如果具身智能是语言智能的下一阶段,那赢得具身智能竞赛的公司是否有个前提条件是有足够多或足够复杂的硬件?

张文博: 如果要做VLA,那肯定要有新的硬件。手机这个东西完全无法承载VLA,它有V、L,但完全没有A,3D世界的A。

新皮层:有报道说理想最近成立了两个新的机器人部门,一个是穿戴机器人,一个是空间机器人,穿戴机器人据说是AI眼镜,也在文博这里?

张文博: 目前还不方便透露更多信息。

新皮层:空间机器人指的是车还是人形机器人?

张文博: 目前还不太方便说,你听到的可能就是皮儿,里面的东西我们确实还非常保密。

新皮层:意思是具体的产品形态会跟外界想象的不一样?

张文博: 等到后面产品发布你们就知道了。

基座模型在从L2向L3演化,CoA是关键

新皮层:去年理想谈AI时关键词还是大模型,今年已经切换到了具身智能,为什么有这个切换?

陈伟: 技术的迭代速度变快了。去年下半年,我们探讨AI未来时间线的时候,列出了明确可能会发生的事和技术突破的时间点。目前行业发展跟我们当时预估没有太大偏差,但我们对于时间的预估比实际市场发生的时间晚了几个月。所以我们在不断调整整个AI战略的节奏。

新皮层:现实中哪些技术演进快于你们去年的预期?

陈伟: 主要是对推理模型的判断。去年9月OpenAI o1模型推出时,我们认为这个技术肯定会快速扩散出去,各公司最终都会有这个能力,可能是在今年四五月,因为大家都有研发周期,但是没想到中间DeepSeek做出来了,而且开源了。开源对于行业是个变量。

新皮层:DeepSeek的出现和开源如何加速或改变了你们的原先计划?

陈伟: OpenAI o1出来以后,其实我们团队内部就在做强化研究,但o1是个闭源模型,当时大家猜它可能是一个MCTS(Monte Carlo tree search,蒙特卡洛树搜索)再加PPO(Proximal Policy Optimization,近端策略优化)的方案,但大家都在探索过程,不知道具体怎么做。当时行业里开源出来的东西都是根据猜想做的,而且都不是很work。

DeepSeek发布R1的时候,外界才发现它用的其实是GRPO(Group Relative Policy Optimization,群体相对策略优化),比PPO简化了,二来它也没用MCTS(蒙特卡洛树搜索),它其实就是采样。DeepSeek把问题简化了,而且依然有效。所以DeepSeek出现后,相当于帮我们把当时在尝试的好几条路径做了削减,加快了我们的研发速度。

新皮层:没有因为DeepSeek放弃自研?

陈伟: 并不是说有了DeepSeek模型就万事大吉了,它还有很多问题,如果你不做自研,怎么能持续解决?只靠DeepSeek,DeepSeek就会是你的天花板。今年下半年,理想同学背后的MindGPT还会有大的升级,会在强化学习上有更多自己的能力和创新。

新皮层:除了加速,DeepSeek的出现是否让你们原先规划的研发项目的优先级也发生调整?

陈伟: DeepSeek把L2模型的技术节点提前之后,面向AGI的L3,即agent模型的时间轴也提前了。

新皮层:今年2月,理想在公司架构上有过一拨变化,外界看到李想从汽车终端抽身出来,all in AI。您本人是不是也在同一拨调整中改变了工作内容?

陈伟: 对,这个部门(指基座模型部门)也是那时候新成立的,只是团队有一些成员是从之前的智能驾舱分出来的,分出来后我们成立了一个新的一级部门。从内部看,其实当你战略上很清晰了之后,你能看到的组织上的这些东西就是在适配新变化。

新皮层:为了支持MindGPT和VLA的架构融合,基座模型团队和智驾团队是不是也要融合?两个团队目前的沟通机制是什么?

陈伟: 在内部,我们的行为准则是用协作解决所有问题。包括我跟文博之间的协作,也包括我们现在基座模型和智驾之间的协作。因为其实MindVLA要成功,智驾团队要承接这个目标,我们基座模型团队也在承接这个目标,在这点上我们是共担目标的。

新皮层:你们多久深度讨论一次?

陈伟: 非常紧密,每周三我们都会有研究会。每周各个团队做AI的同学都会做工作分享,同时我们会引入一些外部专家。很多人从外面看觉得理想是一个非常重视产品的公司,但其实理想这几年在技术上的投入非常大。去年开始,我们携手北京市自然科学基金委员会办公室、北京市顺义区科学技术委员会共同发起了一支联合基金,面向高校老师,理想差不多每年投入几千万在这个项目上。我们是出题方,基金会帮我们去找到优秀的老师,我们对他没有明确的交付需求,我们就是资助你,但是我们需要和你交流。

新皮层:你要告诉我点东西?

陈伟: 对,我需要通过和你的交流获取到一些你最新的研究成果,没发表的研究成果。我们通过自然基金在不断扩充全公司对于AI技术的认知。

新皮层:这个周会是从什么时候开始的?

陈伟: 2023年。所以这块的讨论已经变成一个大家的习惯了。每个团队有新进展或有什么新思考,都会放到那上面去讲。

新皮层:最近你们有什么新的行业判断或认知?

陈伟: 有一个认知是关于记忆的。我们从脑认知的角度设计了两个核心,一个叫海马体,一个叫新皮质皮层。海马体帮助形成新记忆,把感知信息转化成新皮层里面存储的长期记忆。所以我们在做记忆的时候,就是参考这两个能力。

还有一个新判断是关于agent的。就是我们认为真正的agent应该是一个很强的生产工具,它要能持续地去生产、创造价值,而且是能稳定地创造价值,这样的agent才是我们的追求。其实现在很多agent做了半天也并没有做得比人好。可能一定程度上它能节省时间,但没有给用户带来超预期的体验,那这样的事我们肯定不去做,因为我们核心还是想为用户创造超预期体验。

新皮层:但我们看到你们已经推出的agent在帮用户点咖啡时,要花大概5分钟才会操作完,人可能一分钟就点好了,它并不成熟。

陈伟: 这是探索必然要经历的阶段。重要的我们希望agent能独立解决问题,我们做的是先把agent能做的任务收敛到特定任务上,下一步要做的事情是加速。

张文博: 更重要的我们认为是从底层能力上,首先得有AgentOS架构,有这个架构之后未来才有机会推出更好的agent。整体agent的机会我们认为可能分成两类,一类是我们自己的agent,一类是第三方的。因为有一类agent我们认为应该自己来做,比如跟用户的私有数据、记忆数据、所有跟对话强相关的,这部分agent我们会自己做。另外很多专业领域,比如设计领域的Lovart,设计师用起来都很上手,这类很垂直领域的agent其实应该是专业团队可以做的,我们对对接这类agent持开放态度。

新皮层:现在几乎所有ChatBot都做agent,理想同学会跟其他ChatBot在这件事上有什么不同?比如理想同学会像豆包或Kimi那样为用户处理PPT或表格吗?

张文博: 处理PPT和表格我们认为还是属于专业性的工作,更适合第三方。

新皮层:根据你们AI对行业的判断,今年接下来可预见会发生的事是什么?

陈伟: 有两个趋势是我们会坚持的。第一是VLA模型,我们不认为大语言模型是agent模型,语言模型是在L1、L2阶段的模型,L3阶段的模型需要是多模态的,基于VLA架构。

第二,L3模型除了有思维链CoT(Chain of Thought),我们认为还需要有一个链叫CoA(Chain of Action,行动链)。就是模型可以不断思考如何去调用外部工具解决问题,由此产生行动。这件事应该由模型自己去解决,而不是先让一个语言模型负责规划,规划完再让别的模型承接去调度。一个L3模型应该既有思考能力,同时有调度工具的能力。我们今年下半年上线的MindGPT,它的思考和行动就不会再是割裂式的了。

新皮层:CoA行动链和VLA模型是什么关系?

陈伟: 如果L进入了模型,将来VLA体系中的A就可以通过CoA行动链在工具生态中行动,事情就会变成一体的。

新皮层:OpenAI和Anthropic目前在CoA行动链模型上做得如何?

陈伟: OpenAI现在是跑得最快的,Claude 4和Gemini,这3家我看到了有这个趋势。比如说OpenAI在发布o3和o4 mini时,在图像的工具调用上其实是跟思维链融合的。最近发布o3 pro时,他们又在讲o3 pro有一个无缝集合工具的能力。总之我认为它们一定是CoT和CoA的融合。Claude 4发布的时候,其实也在强调它的工具调用属性。

新皮层:CoA的技术差异在于调用工具更快、更准还是别的什么指标?

陈伟: 就跟人的工作一样,比如我今天要写一个报告,我可能先有思路,但写着写着突然卡住,卡在了一个知识点上,我的第一反应是把这个知识点拿去搜索引擎搜,搜完了把信息拿过来再继续写。这个过程中其实你的思维是一条线。但如果这个过程被拆开了,需要两个人配合完成,一个人负责思考,另外一个人负责干,那这俩人光磨合就会花很多时间,中间一定有很多很多的缝隙,最终合作结果不会好。

最好的方式就跟人做事情的心流一样,你的那个flow是一个flow还是两个flow,效果是不一样的。Action纳入进来之后,就要求模型能够用一个心流:思考、使用工具、再思考、再使用工具……直到最后把事儿解决了。

新皮层:模型自己就做到具备action规划能力的话,这种CoA模型会不会把今天的很多agent吃掉?比如今天的DeepResearch类agent。

陈伟: 其实agent和模型两个概念之间在融合。我的感觉是智能体就等于一个智能体大模型加工具。工具就是MCP(Model Context Protocol,模型上下文协议)连接的外部工具生态,A2A(Agent to Agent协议)连接外部的第三方agent。这些外部能力都是L3模型自己解决不了的,但它知道自己不知道什么,然后能够通过寻求外部能力调用去解决。

新皮层:CoA行动链类模型是行业趋势,还是只有少数公司在想?

陈伟: 如果有的公司习惯做工作流编排了,它可能就没有那么强的动力去做模型自主规划的事儿。这两件事不存在谁一定会把谁吃掉的问题。如果我追求确定性的任务完成,那先让人做工作流编排,再让模型去执行也是个不错的选择。但是从智能演进的角度,如果我还是想要面向更通用的场景,那模型一定要知道怎么去拆解任务,而不是由人来给它定义。

我们对于理想同学的认知是,它未来会面临那么多物理世界、数字世界的事儿,那它就得自己会做任务规划。其他公司也可能关注到这个方向,但我觉得目前还没有形成共识。.

新皮层:GPT-5会继续往CoA方向进化吗?

陈伟: o3 pro发布的时候,Sam Altman就说这是一个温柔的奇点。所以我觉得他们已经在往agent模型的方向看了,而且他们对agent模型的到达时间预估比较激进,认为明年agent模型就成熟,AGI可能就是后面几年的事。我自己认为明年后年agent模型还需要继续发展。

新皮层:DeepSeek实现了L2级模型的中国赶超,L3级模型的DeepSeek时刻会是理想吗?

陈伟: 在L2的场景里,理想一定会是领先的那批公司之一,但一定不会是唯一。因为随着推理模型的开源生态建立,现在谁也没取得断代式领先。到了L3的agent阶段,是否领先取决于你对专业场景的定义。可能DeepSeek发布了一个面向L3智能体的模型能力,获得了很好的benchmark。

但回到理想内部的场景,谁对agent模型、对强化学习这件事的认知越深,谁将来在L3领域进入领先阵营的可能性越大,我觉得我们很有可能,这是第一个。第二,DeepSeek的成功其实不只是模型的成功,而是在模型和英伟达芯片之间做了深度融合,展现了infra能力。当理想在L3的infra基建层面也做到了效率和效果同时领先时,我觉得这是理想的DeepSeek时刻,而不是说只是发布一个CoA模型。

新皮层:如果理想在L3、具身模型的前3名,另外两名会是什么样的公司?

陈伟: 面向我们看到的AGI未来,行业最大的差异其实是大家的认知,每家公司都在根据自己的判断押注各自的方向。比如OpenAI押注的方向是GPT,它GPT-3.5之前的好几代模型都不是那么成功。但是最终表明他们的判断是对的,他们押注scaling law押对了。

我们坚持的是VLA这个方向,在对达成AGI的路径认知没有完全成为共识的情况下,很难定义清楚说进入前3的到底是从哪个维度看的前3。在技术快速发展的阶段,克服欲望和恐惧,从自身的场景优势出发,坚持自己的技术判断和路线,扎扎实实做好核心技术研究更为重要。

-END-

图片2

ChatGPT的通用agent来了,Manus们怎么办?

Vibe Coding很火,但「人人都能编程」为时尚早|对话通义灵码神秀

Perplexity和OpenAI也加入了AI浏览器大战,一切为了用户的context|AI浏览器③

图片3

图片4

图片5

图片6

图片7

图片8

原文作者:新皮层NewNewThing,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!