本文2700字,阅读时长约10分钟
本文不做科普,仅分享一些个人看法。最近在智能驾驶领域,关于VLA(Vision-Language-Action)的讨论很多,有的基于技术分析,有的出于逻辑推断。我简单梳理一下目前的多种观点,帮助大家更清晰地理解VLA,同时也提出我自己的判断,供大家探讨。
先谈谈我对VLA的理解。VLM中的“L”虽然字面是“Language”,但本质上是指大语言模型(LLM)。这个命名容易带来歧义,因此我更倾向于称之为“世界理解模型”。大语言模型的核心是知识或信息的压缩存储,文本生成只是其外在表现。因此,VLA 中的“L”关键不在于与车交互或文字控制,而是提供一种基于世界理解的、更高维的决策视角。
目前有一种流传较广的误解:认为VLA智驾就是靠大模型解读摄像头图像,再以文字指令控制车辆——这种理解是完全错误的。从理想贾鹏的演讲可知,理想的VLA模型具备两种输出模式:一是逐字生成的“思维链”,二是直接输出控制轨迹。前者被多数人熟知,后者实则是传统端到端的方式。换言之,VLA本质上是一套融合端到端输出的、更为复杂的系统,它在模仿学习的基础上,增加了认知与推理的能力。
另一方面,也有观点认为,现阶段辅助驾驶并不需要多么深入的“思考”,传统端到端模仿已经足够。通过引入高精地图、外挂文字/图像识别模块、加入兜底规则等方式,系统可以处理如可变车道、公交专用道等场景,其他多数场景并不需要复杂推理、体验不差解决方案成本更低。再比如雨天绕开积水,这类能力完全可以借助案例学习,端到端系统是有能力解决的。
通过更丰富、更准确的场景案例,可以不断提升端到端系统的能力。再结合仿真环境与强化学习,模型的驾驶表现还会进一步提高。这条技术路线仍然有巨大的改进空间,我相信它也能够打造出体验出色的辅助驾驶系统。Momenta的方案,以及近期备受关注的地平线HSD,基本都属于这一类。
为什么Momenta和地平线HSD能这么快跟上?它们仿佛一夜之间抹平了与华为、理想、小鹏等头部厂商的差距,甚至开始并驾齐驱。在我看来,首要原因是实现高阶辅助驾驶的技术路径已逐渐成为“显学”——大的技术框架与细节算法几乎都已公开,加之人才流动带来的知识扩散,这些已不再构成核心壁垒。
其次是算力和数据。算力本质上靠资金投入;数据方面,对车企来说不是大问题,第三方智驾公司也可以通过采购或自建车队获取,至少完成初期的数据闭环是可行的。何况像Momenta、地平线这类企业已有可观的装机量,数据规模已不是瓶颈。
再者是工程能力——是否有一支技术扎实、能快速解决实际问题的团队,并建立起高效的迭代机制。Momenta和地平线正是在这些方面打通了关键环节,才能迅速赶上。这就好比登山,前半程甚至大部分都相对好走,所以容易追赶。真正艰难的是最后冲顶的那一段。自动驾驶也是如此。
因此,目前要实现高阶辅助驾驶,关键就是资金、数据和工程能力三者兼备。尚未做好的厂商,往往在这三方面存在短板。多数问题出在工程能力上,也可称为“狭义的技术能力”——既然不存在原理级的突破,核心仍依赖工程上的微创新,所以“工程能力”是更准确的说法。
那么,理想、小鹏所选择的VLA路线,与Momenta、地平线所走的(狭义)端到端路线,究竟有什么区别?我认为,从大的技术框架看,两者都属于数据驱动,都属于广义的端到端架构。真正的分歧在于:选择VLA的厂商相信,要实现更高阶的辅助驾驶乃至自动驾驶,系统需要具备更深层的思考与理解能力,以应对复杂场景和极端长尾情况。
而选择传统端到端路线的厂商则更务实,他们在现有可提升空间仍然很大的前提下,通过虚拟仿真和强化学习持续优化智驾体验。目前看,这类厂商以第三方智驾供应商为主。
从我个人的角度看,技术路线的选择也与其商业生态位密切相关。我要给出一个很少人看到的判断,很多厂商对端到端和VLA的态度,并非技术路线判断,而是商业路线选择导致的。目前,华为、理想、小鹏、极氪、小米等品牌都选择自研智驾,其他品牌多以中低端产品为主,在成本承受力和用户需求层面与前几类品牌有差异。换言之,简单、直接、低成本、见效快,是Momenta、地平线这类公司的最佳选择。
VLA是一条更复杂的技术路线。它虽然为系统带来更深入的理解与思考能力,但代价也非常高昂。首先是模型复杂度带来的工程难题,无论车端推理还是云端训练都更具挑战。其次,像理想这种自研基座大模型的做法,成本极高,绝大多数公司不敢轻易尝试。最关键的是,即便投入巨大,在绝大多数驾驶场景中,VLA也未必能体现出显著优势——99%以上的路况,靠端到端模仿学习已经能带来足够好的体验。
既然如此,为什么还有厂商选择VLA?我举一个例子,或许能帮助大家理解VLA与端到端系统的能力差异。我曾在一家餐馆前思考过一个停车问题:传统端到端系统能识别出哪里有空位、能否停进去,但只有具备认知能力的VLA系统,才能判断停在哪里不会影响店家营业。
↑这个例子非常绝妙。端到端系统无论如何打补丁和学习,永远解决不了这个问题。更不可能通过数据训练获得这种高维的世界理解——它需要系统真正理解人类社会,而这正是VLA(或将来更先进架构)所擅长的。有人可能会问:现阶段并没有这类需求啊?近处的问题还没解决好,为什么要考虑那么远的场景?
因此我认为,VLA是面向L4级自动驾驶的架构。未来技术或许还会演进,但相比端到端,VLA更接近真正的自动驾驶,这一点是确定的。不仅如此,VLA所代表的技术方向,也是未来实体智能机器人的必然路径。理想和小鹏都已布局机器人战略,从长远看,选择VLA是正确的一步。
总结来说,我个人认为VLA在中短期内,未必能体现出比传统端到端路线更优的体验和能力,甚至可能因工程复杂度而在某些局部表现稍弱。但整体体验应该相差不大,因为像理想的VLA架构也融合了端到端的模块,它并非完全另起炉灶,更像是一套高度融合的双系统。
最差的情况,是理想和小鹏投入更多资金、成本与人力,最终做出一个和其他端到端产品体验接近的系统。最好的情况,是端到端路线体验迅速提升后逐渐收敛,行业需要新的思路以突破长尾瓶颈。我不想妄下判断,但我相信,前述“餐馆停车”的场景需求迟早会到来。只是我说不准这需要一两年,还是三四年。
最后,关于理想自研LLM基座模型,固然有诸多好处,比如能力可定制。但目前来看,短期边际成本仍高于边际收益。中长期而言,汽车产品的销量与营收规模也非常关键,否则可能带来经营风险。关于理想,我有一个大胆但自认符合逻辑的“抱大腿方案”建议,打算下周写出来,届时请大家点评。
(群聊是思考来源,私聊群399元年费名额还剩16位,根据业务规划,群成员满300后,价格会自动上涨至499元每年,欢迎大家私信加群,具体介绍私信↓)
投资/行业讨论群 门槛:399元/年
汽车/AI 私密讨论
更紧密、更深度的跟踪与观察
观点与逻辑碰撞
投资人与深度爱好者价值获取
(入群私信联系)