AI助理
AI助理
发布于 2025-09-20 / 7 阅读
0

理想小鹏重金押注vla大模型天才还是傻瓜

图片0

关注「电动车公社」

和我们一起重新思考汽车

天下大势,分久必合,合久必分。

《三国演义》如此,车企们的辅助驾驶技术路线同样如此。

去年年初,特斯拉正式将上线端到端之后,几乎全行业都进行了快速的跟进,使得城市领航辅助功能正式在新车上迎来普及。

但经过了一年的时间,如今辅助驾驶技术路线又一次走到了命运的岔路口,选手们开始分道扬镳。

这两条岔路,名为“VLA”视觉语言动作模型和“WA”世界模型。

图片1

不久之前,理想刚刚更新了8.0版本,其中最核心的升级点,就是为其辅助驾驶系统全量推送了VLA司机大模型。

而当天李想就发微博表示,理想汽车的辅助驾驶已经从“局部领先”进入“全面领先”。

图片2

同样走VLA技术路线的,还有长期被公认为辅助驾驶第一梯队的小鹏。

但有趣的是,早期小鹏并没有明确站队。

直到小鹏G7 Ultra 发布会上,何小鹏掏出了自研的图灵芯片,小鹏的VLA技术路线才随之公之于众。

不仅如此,在全新小鹏P7上市发布会当晚的专访环节,何小鹏直接语出惊人道:“只有小鹏是真VLA,部分公司是嫁接的。”

图片3

除了小鹏和理想以外,已经明牌走VLA技术路线的,还有奇瑞、吉利、元戎启行(长城汽车的辅助驾驶供应商之一)等。

就在几家做VLA的公司纷纷自夸“遥遥领先”时,反方的一盆冷水浇了过来。

华为智能汽车解决方案 BU CEO 靳玉志表示:“华为不会走 VLA 路径,这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。华为更看重WA,这个路径目前看起来非常难,但能实现真正的自动驾驶。”

图片4

不仅如此,春晚上表演机器人丢手绢的宇树科技,其创始人王兴兴也作为反方发表了“暴论”:“VLA是一个相对傻瓜式的架构,我个人对它还是抱一个比较怀疑的态度。”

图片5

尽管王兴兴指的是VLA应用于机器人领域,但他此言一出,在自动驾驶领域也掀起了不小的风波。

除了华为以外,明确表示将采用WA路线的,还有蔚来。

有趣的是,到现在为止在自动驾驶领域发言最具影响力的男人马斯克,这次倒是没有明确站队VLA还是WA。

至于VLA和WA两种技术路线到底谁才是未来?受限于篇幅,我们这次分成两篇文章去分析。

这次先来重点说说争议度较高的VLA大模型,到底有何优劣势?未来进一步进化,还需要克服哪些困难?

01. 打破端到端的黑匣子

从舆论上来看,理想汽车算是VLA这条技术路线最坚实的践行者。

但实际上,VLA大模型并非理想首创。

VLA大模型的概念最早出现在2023年7月,是谷歌人工智能公司DeepMind推出RT-2架构时首次提出的。

在当时,VLA主要应用在机器人领域。它的初衷其实是让机器人拥有能听懂并理解人类语言的能力,而不是大规模被车企用于辅助驾驶。

图片6

理想、小鹏等企业,则从谷歌机器人研发中汲取了灵感,成为了第一批利用VLA大模型做辅助驾驶开发的企业。

之所以是理想和小鹏,或许是因为这两家公司都有关于AI、机器人等领域的深度规划,可以更好地理解VLA大模型的优势。

VLA这三个字母,对应的分别是Vision、Language和Action,也就是视觉、语言和动作。

图片7

从字面意思上来理解其工作原理,就是机器先把摄像头、雷达等传感器拍摄到的信息,转化成可描述的语言文字,再根据生成的语言文字做理解推理,进而决策下一步要执行的动作。

相比传统的端到端架构,VLA大模型可以直接根据传感器信息,输出车辆转向、加减速动作。

而它和端到端最明显的区别,就是中间多了一道工序——将传感器信息转化成语言。

图片8

那么,为什么要多“语言”这一项工序呢?

其实是因为传统端到端架构目前存在一个短板,就是可解释性差,没办法知道它怎么想的,只能知道它最后做了什么。这也是业内人士称其为“黑匣子”的根本原因。

虽然端到端在大部分场景下,表现都比逻辑堆叠的传统智驾更果断、操作更拟人,可一旦遇到没见过的复杂场景,比如临时施工路段、异形障碍物等等,就有概率出现误判,做出错误的动作。

这时工程师们想要调试并纠正问题就比较麻烦了,不能通过直接改代码的方式解决,只能通过投喂大量正确的数据来进行修正。

可具体需要投喂多少数据才能让机器学会正确操作,是没法准确得知的,就像薛定谔的猫一样神秘。有可能机器的准确率能达到99.99……%,但永远都无法做到100%正确。

也就是说,对于端到端架构而言,很多时候出了问题只能“下药缓解”,做不到“彻底根除”。

图片9

恰恰因为端到端在某些极端场景下很难不出错,所以大部分厂家的做法,往往会再写入一套逻辑算法,对整个辅助驾驶系统做兜底。通过“拉红线”的方式,对端到端架构的行为举止进行约束,以免因判断失误导致交通事故。

但这样一来,又会影响端到端的能力上限。

要知道,现在之所以所有玩家都依旧卡在L2级辅助驾驶,抛开法律法规层面不谈,能力不足是一个很重要的原因。

即便是体验已经达到90分甚至95分的辅助驾驶,想要进一步跃升至L3、L4级自动驾驶,就必须攻克最后的5-10分。

可恰恰是这最后的5-10分,往往是最难攻克的,就和爬山越接近山顶、道路越险峻是一个道理。

VLA之所以会出现,就是为了寻求突破,解决端到端架构的那些疑难杂症的。

图片10

选择VLA技术路线的企业认为,端到端之所以会存在瓶颈,核心原因恰恰在于,端到端仅仅是在模仿人类开车。

有点类似于“一只训练有素的猴子在凭借经验开车”,而无法做到真正像人一样通过逻辑推理来思考——为什么要这么开车?

而VLA大模型在通过图像等传感器数据,转化成语言文字描述之后,就可以通过现在已有的,类似ChatGPT、DeepSeek之类的语言大模型进行像人一样的逻辑推理,进而推断出正确的抉择。

02. VLA大模型的利与弊

升级为VLA大模型之后,相比传统端到端架构大体上有3点改善:

第一点改善是,原本端到端架构可解释性差的问题有方法可以应对了。

当系统在一些复杂场景下,做出一些“反人类”操作时,工程师们就可以直接调取图像输出的描述文字,直接对描述文字进行动手修饰,来起到纠正错误的效果。

说白了就是,改错更方便了一些。

图片11

第二点改善是,系统交互能力有了明显的增强。

体验过理想汽车辅助驾驶的小伙伴,或许会发现它和其他车型的一大区别——

理想在开启辅助驾驶之后,会在车机上把摄像头拍摄到的场景展示出来,同时贴上一大段文字描述,来叙述车目前处于哪里、有什么障碍物、标识,系统经过判断具体打算怎么做之类的。

图片12

对此,有的人会认为看到了整个逻辑链,会让人更加安心,也有人会吐槽虽有炫技的嫌疑,但这确实是VLA大模型的一大典型特征。

除此之外还会发现,在升级VLA大模型之后,在开启辅助驾驶状态下,是可以通过语音呼唤车机的方式,控制车辆动作的。

而且下达指令可以类似“向左转”、“掉头”之类很明确的指令,也可以是“帮我开到停车场B区找个车位停”这种相对模糊的指令。

往长远去想,接下来很有可能可以通过语音对话的方式,改变辅助驾驶的抉择风格。

比如嫌它慢的时候,可以让它超车变道更果决、跟车更紧一些,如果行为太过于激进有些吓人,也可以让驾驶系统更收敛一些,就像跟司机在对话一样。

这或许也是为什么,理想会给自家VLA起名为“司机大模型”。

简单来说,就是更有“人机共驾”那味了。

图片13

第三点改善是,整套系统处理复杂场景的上限更高。

传统端到端以前从未见过的场景,或是异形障碍物,很有可能就会无法识别直接撞上去,要么即使识别到了,也可能做出许多匪夷所思的动作碰碰运气,要么就是系统处理这么复杂的问题,出现死循环导致系统Down机退出。

而VLA经过语言文字转化之后,系统可以真正根据路况进行思考判断,从而做出更加拟人的抉择。

越是复杂极端的长线程场景,越能体现出VLA类人思考的优势。

图片14

往更深层次去想,理想状态下VLA技术路线成熟之后,做出的抉择是有可能富有更多人性的。

打比方说,我给车辆下达指令,“我要在某家饭馆吃午饭,帮我就近找个停车位”。

如果是传统端到端架构,顶多可以实现找到离饭馆最近的一个停车位并把车泊入。

但VLA大模型经过思考之后,很有可能会在就近泊车的基础上,还会考虑一下怎么停才不会堵住饭馆门口,尽量不影响人家做生意。

由此可见,VLA大模型的上限是极高的,且不仅仅局限于车端应用。

或许理想、小鹏这类选择走VLA路线企业所追求的终极目标,是将AI塑造得无限接近“带自主意识的人工智能体”吧。

图片15

VLA大模型虽然上限很高,但短期内潜在弊端也比较明显。

首先VLA大模型在升级之后,在短期内很可能无法在体感上感受出它与传统端到端的差异。

原因是VLA大模型本身是建立在端到端架构的基础之上做的,所以VLA大模型的下限与端到端的下限会比较接近。

想要达到能明显有体感差异的程度,同样需要投喂大量的数据进行模型训练。

而加入语言文字逻辑判定后,相当于中间多了一道流程,会不可避免的使得整套系统变得更加复杂。

VLA大模型能发挥出多少实力,很大程度上取决于硬件算力的大小。

图片16

如果算力不够,即便遭遇了复杂场景,也很有可能无法完成语言大模型分析结果,影响接下来执行动作速度与流畅度。

这时,自研大算力芯片就变得格外重要了。

除了算力数值要高之外,芯片算力的利用率也很关键,得把芯片用得明白才行。

小鹏自研的图灵芯片已经装车,而理想自研的“M100”芯片在今年一季度已经样片回片,据说1颗算力能顶3颗英伟达Thor-U,有可能会在明年发布。

图片17

整体来说,想把LVA大模型玩明白,无论在软件上还是在硬件上,都需要比以往更大的技术支持和资金投入。

03. 写在最后

最后,给大家简单做个总结。

得益于语言大模型的接入,VLA大模型比端到端更容易纠错、更具人性、复杂场景上限更高。

理论来说,它的上限是有能力帮助车企从L2级辅助驾驶突破至L3、L4级自动驾驶的,并有机会在AI机器人等更前沿领域大展身手。

但换来的代价是,架构总体上会比端到端更复杂,更难驾驭。想要保证流畅、低延时运作,会更加吃算力,需要投入更大的资金与技术研发,这也是VLA受到行业争议的主要原因。

这里挖个坑,下一期我们将详细聊聊与VLA大模型完全不同的WA世界模型路线,二者究竟差异点在哪?到底谁的未来更有胜算?

如果大家感兴趣,欢迎在评论区留言~

点击一下👇不错过更多深度内容

图片18

VLA会赢得未来吗?

原文作者:电动车公社,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!