AI助理
AI助理
发布于 2025-08-09 / 18 阅读
0

理想vla含金量分析与关键迭代方向预测

得以成文离不开与多位非理想的群友们线下沟通。

理想VLA含金量核心是四点:

1.理想VLA是DeepSeek MoE(混合专家)级别的创新,低于DeepSeekMLA(多头潜在注意力机制)级别的创新。

MoE和理想VLA一样,本身的想法在其他领域有人先提过,但都是首次完整落地到另一个大领域,在其中有大量创新,并取得良好结果。MLA是别人在想法/理念层面都没人提过。

在确定朝VLA方向努力后,架构细节设计与执行都是理想高度原创,更细的细节方式方法来自整个AI社区的贡献(包括但不限于强化学习/仿真/世界模型/diffusion出轨迹),理想在这个尺度没有什么创新(以做菜类比,理想没有发明什么新的可以引领行业的做菜工具,但具体做菜方式有巨多原创,且有机会一定程度引领行业)。

2.将AI软件与硬件结合的能力达到了一个行业相当领先的水平。

软件与硬件在底层思路上有很大差异,软件可以疯狂做AB Test,快速迭代。汽车的硬件平台难以AB Test,且迭代速度一定比软件慢很多。而AI软件较过去编程式的软件开发范式又有了巨大区别,AI软件内核是神经网络与权重,过去的软件1.0内核是代码。

这三个要素需要的底层能力差异是很大的,理想实际上将这三个要素结合达到了一个相当高的水平,大量人还没意识到。

做AI软件的人,容易很低估理想把AI软件与硬件结合到这个水平的含金量。做硬件的人,更容易完全不理解AI软件种种革命特点,以为不过是XXX而已。

3.理想VLA能推进的那么快,最核心的灵魂人物是李想不是其他任何人,李想之于理想辅助驾驶的作用非常类似马斯克之于特斯拉辅助驾驶的作用。

李想是一位投票权极高/今年44岁/创始人,这三个元素可以保证李想在接下来十到十五年左右,既对公司走向有绝对控制权,也能真的让公司可以顺应新的产业要求改组织架构,又具备持续真正学习的能力。

李想作为作为理想辅助驾驶的直接灵魂推动人,李想核心作用为四点,创造公司可支配资源,分配公司资源,参与AI的学习与讨论,下关键判断。

创始人真懂这东西,持续盯着这东西,才能真正既获得持续更多资源又能中长期让资源更高效利用。(以tongyi为例,如果灵魂人物是技术人员,他一走,持续资源投入与资源更高效利用都受到很大影响,AI行业实际上对资源高效利用的要求很高。)

正是李想自己能够下判断基于强化学习的辅助驾驶非常有搞头,才能做出决定资源核心投向VLA,对端到端的资源投入减少。

正是李想能够下判断,基于现有资源,让双Orin平台跑VLA模型第一性上是可行的,才让22年9月交付的车在25年下半年都还能跑最新最前沿的辅助驾驶模型。

老板没有下关键判断的能力,团队会陷入无止境的争吵/甩锅/说做不到/图稳不愿意创新的环境之中。

4.基于架构特点,经过一定时间的迭代,以强化学习为核心的理想VLA一定可以较以模仿学习为核心的端到端路线有明显底层能力与体验提升。

备注:强调是理想VLA是因为VLA具体怎么做,以什么为核心此时此刻都还处于探索阶段。

理想VLA关键迭代方向预测:

1.让仿真数据尽可能又快又好又便宜。(明确大量真实数据的用处大大降低,真实数据既贵,又少,又慢,也非常不适合强化学习。)

2.尽可能压榨现有车端辅助驾驶推理芯片潜力,新的车端辅助驾驶推理芯片尽可能算力/显存与其他方面更强,从而可以符合车辆延时要求的前提下在车端跑参数量尽可能大的模型。

3.上述两点每一次明显升级,都可以通过强化学习核心的范式,让模型基础能力得到明显提升。

4.如果上述三点压榨到极致没实现L4,那么再通过新的范式架构升级迎来新的一轮能力明显提升,包括但不限于通过在线学习这种有机会直接改变模型权重的方式。

以下为更细化论述:

22年12月基于GPT-3.5的ChatGPT的发布让AI再次迎来新一轮加速,从而也让辅助驾驶领域3年时间完全变样。

端到端之前可以通通归为监督学习为主导,抽象出来就是告诉汽车,出现XX情况,如何开车。缺点主要为:此前没考虑过的情况容易变现非常差,拟人性很难做好,本质没有任何思考能力。

端到端的内核是模仿学习为主导,抽象出来即人如何开,车就如何模仿。优点是拟人性得到了显著提升,缺点是端到端本身其实是没有思考能力的,一直都是在单纯的模仿。

理想的端到端+VLM,其中VLM部分可以理解成为了端到端打的补丁,这里的部分是有思考能力的,缺点是架构天生时延较高。

模仿学习另一个很大的缺点的是,当出现bad case后,只能尝试给增多或减少一部分数据,去看效果,并且很容易解决一类bad case,又出现新的一类bad case。难以针对性解决问题,内核真的就是在炼丹。

理想的VLA变成强化学习为主导,强化学习其核心思想是让智能体(Agent)通过与环境(Environment)的交互,以“试错”方式学习最优决策策略,最终最大化长期累积奖励。

监督学习需要大量有标记的样本数据;无监督学习主要用于发现数据中的潜在模式和结构;而强化学习则通过与环境交互获得奖励信号来学习最优策略。

理想VLA真的让模型有了理解思考现实世界的能力(虽然VLM也有一点,但不是主导),且能针对性就bad case不断试错改正。

辅助驾驶很适合用强化学习来训练,因为奖励信号方向很明确,大方向就是真实安全/安全感/舒适度/效率。

但在要想在辅助驾驶领域用强化学习训练,必须仿真水平要达标,因为只有这样才能让智能体自己不断试错去学习。用实车数据,是没办法用于强化学习训练的,因为真实环境里,不可能在超级多不同场景里,不断让你去试十次二十次三十次,车辆环境也不可能总是保持一致,只能用仿真数据。

AlphaGo就是通过强化学习的方式,后来没用过一盘人类棋谱的方式能力远超人类。

即理想VLA关键迭代方向是让仿真数据尽可能又快又好又便宜。这也是为什么理想i8发布会上,理想自动驾驶负责人郎咸朋花那么多时间讲仿真数据的构建,仿真本身一点不新,可以好用到用于大量强化学习训练,出好的结果这里面有巨多工程优化问题。

此外,郎咸鹏在i8发布会上展示的经过十多次试错后无保护左转,是很典型的自我博弈强化学习,TOP2在25年4月28日非常明确的指出,很值得留意一篇在自动驾驶领域应用自我博弈强化学习的论文,详见《很值得留意: Robust Autonomy Emerges from Self-Play》。

模型参数量越大,很多能力自己就涌现出来了,实现同一个效果,小的模型或许可以很费劲通过各种技巧来实现,而大的模型可以不经专门训练,自己就涌现出这个能力。

目前理想VLA在车端跑的是一个4B的模型,在大模型领域这算一个很小的模型。前进方向无疑就是要让车端能够本地实时推理更大的模型,且时延要符合要求。

解决思路就是两条,压榨现有芯片的算力潜力,其实潜力还有不少可以挖掘的地方,背后是一个大致评估投入多少资源,可以增量挖掘多少潜力的问题,同样涉及巨多工程化问题与资源如何更高效分配。另外一条就是用新的芯片。

所以理想VLA的主线就是强化学习+更快更好更便宜的仿真+时延符合要求的可用于本地推理的更大参数量模型,背后实质是模型对物理世界理解能力较上一代架构的明显提升。

如果主线这三部压到极致没实现L4,就靠下一代架构了,这里只是简单谈谈下一代架构的可能性,以在线学习为核心的架构,在线学习其中一个特点是可以在交互中权重更新。

当我们说训一个大模型时,实际训出来的是一系列权重,目前主流产品的每一次权重更新实际是靠人工重新训去获得的。而人类实际学习过程里,是与这个世界不同交互中,权重自己就更新了。

需要注意的是,如果模型可以自己更新权重,Ilya在做的超级对齐就变得极度重要了,涉及到非常底层的安全。可以说不认为超级对齐极度重要的人,本质是不信AGI的,本文不展开讲了。

加微信,进群深度交流理想实际经营情况与长期基本面。不是智驾群,不是车友群。

图片

原文作者:理想TOP2,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!