AI助理
AI助理
发布于 2025-08-13 / 16 阅读
0

关于理想vla新的36个qa

回答时间:25年8月8日

回答人:理想自动驾驶高级算法专家 詹锟 湛逸飞

其中第1-6个问题是TOP2问的

Q1:我个人感觉理想自己判断出来强化学习用于自动驾驶是非常重要,我感觉这个点对理想资源投入VLA非常有帮助,不知道您这边是否同意这个观点?还有人认为李想在理想自动驾驶的作用是类似于马斯克在特斯拉自动驾驶的作用,这点您同意吗?

湛逸飞:其实我刚才已经大致介绍了一下,今年我们加了很多的推理卡,就是为了做强化,因为强化训练是推理跟训练要轮流来的,不再是一个单纯的训练过程,所以我们需要储备大量的推理卡。所以第一个问题答案是肯定的,强化训练一定会在VLA里起到很重要的作用。

第二个问题也是肯定的,李想在自动驾驶的发展上提供了非常多的支持。

Q2:EID界面长得像仿真视频有可能吗?

湛逸飞:我们现在EID的渲染可能大家只能看到一些车辆模型,像车道线、红绿灯,其实这个渲染也是要消耗驾舱芯片的算力,如果想在EID上能看到像仿真的更加细的颗粒度,其实要用更大的算力,本质就是如果我们驾舱芯片的算力足够了,它是完全可以实现的。

Q3:当时VLM不用Diffusion去生成轨迹,是什么原因?以及现在VLA用Diffusion的方式是否参考了特斯拉的做法,还是理想自己独立想出这种方案的?

詹锟:VLA当时我们设计的是双系统方案,去年的方案是VA,旁接一个并联的VLM,所以VLM这里不太能再接一个Diffusion,这两个完全的冲突。我们当时的思想就是慢系统是通过你的决策、逻辑引导你的Action模型去输出,形成了这样的架构,所以VLM不可能再带一个单独的Action。

现在我们为什么加入这个设计?可以看到此前VA(视觉-语言模型)是并联一个L(语言/逻辑模块)的,而当前的VLA(视觉-语言-动作模型)相当于把并联的L模块整合到了主链路中,VLA必须是串联的,这种串联设计使得每一步计算都具备自主思考能力,其思考深度由模型自行判断,就像现在的大模型一样,存在thinking(思考)与no thinking(非思考)的过程。

有了这个以后,我们一定要有一个输出方法,以前端到端,因为算力问题、技术判断问题,当时没有做最早的Diffusion扩散模型,但是我们也看到了机器人,机器人领域是最早开始大规模使用扩散模型来做行为轨迹的,最早叫Diffusion policy,就是来自于机器人的,包括我们后来也看到谷歌的机器人论文都是用Diffusion的。

我们在这里做了大胆的尝试,可以看到从今年年初开始,自动驾驶领域包括我们自己的论文也有很多做Diffusion的结果,而且指标是非常好的。通过去年年底到今年年初的这些预研,我们就坚定了Diffusion是完全可行而且性价比很高的一个路线。当然这也回应了之前马斯克说过的,他们现在用了很多类似于扩散模型的东西,现在回想起来确实是一样的,但是我们并不是完全跟随马斯克的思路,而是我们自己也探索了一些预研和深刻的研究,我们才选择这个方向。

Q4:目前直接输出油门、方向盘电信号的难点主要在什么地方?

詹锟:这个我们还是实话实说,我觉得直接出油门和方向盘信号这个不一定是合适的,本质原因是任何一个自动驾驶信号适配不同车型,底盘、硬件、执行器都不一样,如果你让模型适配各个硬件环境其实是一个完全冗余的设计,更合适的方式还是输出精准的轨迹,再让一个标准的模型去适配不同的底盘,我还是坚信这个路径是更好的。

Q5:我想问一下关于VLM这种以模仿学习作为主导的话,三点掉头这种方式是否不太可行,主要是因为VLM的我觉得表现没有很好,这个是什么原因导致的呢?

詹锟:我们为什么VLA才给大家释放三点掉头?我们没有释放三点掉头,不是没有做过。本质原因是两个:

第一,Diffusion可以拟合任何多模态的轨迹,三点掉头直接放进去的时候会发现模型自己能知道掉到一半不行,它还有个回折倒车的轨迹在往前走,它自己首先能理解一个多模态全场景的行为。

第二,什么时候启用三点掉头?不能在直行等车排队突然来个倒挡,这就需要有一个很好的决策和思考,所以我们觉得只有这几个具备了以后,释放给用户才是可行的,所以VLA我们才逐渐用这个方法。

Q6:VLA较VLM感知端的能力是否有进步呢?以及这个感知端主要是哪些场景比较会有瓶颈?

詹锟:这个就是我们最开始说的这次VLA的“V”是3D空间理解+全局语义,其实我们在上一代的双系统的时候给大家画的架构图也很清楚,只有在VA端到端的模型里面是有3D空间的编码和理解,但是在VLM其实是个全局语义理解,相当于在这次架构中我们把V这部分同时加入了3D和全局语义理解,进行了整合,所以使现在我们的综合理解上既有空间,又有全局环境的感知,是架构的升级才能实现对应的能力。

其实也可以看到很多之前的大模型,如果你问VLM,这个物体离我有多少米其实是很难回答的,因为它只有一个2D输入,对3D空间感知是不足够的。现在我们加了很多类似这样的数据以后,我们专门的V部分的3D编码具备了这样的能力。

Q7:近期行业内普遍存在一种观点,认为短期内VLA模型很难落地,主要提出三个难点:多模态对齐难、数据训练难、VLA模型部署在单个芯片上比较难。想请教您如何看待这三个难点?

詹锟:VLA落地难相对于之前的模型确实更难,但并不代表它不能落地。特别是随着现在新的芯片(包括SOC等支持FP8、FP4算力芯片)的应用,VLA的部署其实没那么难了,或者说有机会解决。

另外,关于VLM/VLA的对齐问题。大家也看到昨晚GPT-5发布了,现在大模型的能力已经非常强,达到了专家级的智力。其实对齐问题其实也在逐步解决,如果现在还说对齐难,这个话题就显得有些初级了,它并不是不能对齐。

当然,自动驾驶有自动驾驶的难度。特别是我们刚才提到的3D空间理解,这可能是跟传统的VLM模型不太一样的地方。自动驾驶本质是空间物理行为,所以它对三维有更好的理解。我们有很多的方法来专门把3D的空间理解放到我们的VLA模型里面来对齐,通过“3D局部空间+2D全局理解”的特点来实现对齐。3D局部的空间+2D的全局理解是我们这个VLA模型的一个特点,包括贾鹏老师也在GTC上详细讲了我们当时是怎么做的,这个就是我们来解决的思路。

再者是单芯片部署问题。刚才也详细提到我们做了大量工作。从去年开始,我们就实现了双系统VLM在Orin上的部署,2.2B参数的模型也是业界首个,这背后是长期的积累。我们与英伟达进行了深度交流,重新编写了PTX的CUDA底层算子,开发了自研引擎,仅依靠他们提供的TensorRT特定集是无法实现的。这些都是我们工程积累的成果。现在业界也有很多在宣传VLA,我相信他们同样会找到落地方法。所以难是相对的,但都是可以解决的。

Q8:以后VLA的模型规模、性能等都会提升,比如说你们现在是4B的,以后有可能变成7B、8B、10B,比如到8B之后,又该怎么解决模型上车的问题?以及目前芯片的推理帧率对于模型上车的影响到底有多大?

詹锟:大家可以看到一个规律,就是大模型在去年一年的发展中,在同等智力水平下,推理性能提升了10倍,这是大模型的发展规律。其实对应到端侧来说也是一样的,甚至提升幅度更大。因为端侧的优化有非常多的细节可以做,特别是在垂域场景。比如我们做自动驾驶,很多语言的理解其实可以做简化、做压缩。刚才展示的较长过程主要是为了演示,实际内部我们会压缩大量语言信息,再通过转译呈现为人类可理解的内容,这些压缩技术正是我们上车实现的细节洞察。

具体到这里还有一个,随着模型规模持续扩大,我们的芯片能力也会同步提升。明年、后年,芯片将形成自身的算力Scaling Law,对应的模型效果也会越来越好。

另外需要强调的是,大家不要低估我们算法架构和训练架构的优化空间,即使模型参数量保持7B不变,我们仍能通过优化让智力进一步提升。具体来说,通过更大的模型、更优的蒸馏、更好的数据配比,实现模型智力的持续增强。

Q9:今天不管是体验的巴士,还是看到的世界模型,感觉与Robotaxi L4级玩家的强化学习路线有相似之处,尤其巴士的表现很像Robotbus,前后台已很接近。理想从L2到L4的渐进路线,与直接做L4的玩家有什么区别?

詹锟:先回答第一个问题,你问的这个问题就是问特斯拉和Waymo有什么区别,所有人都在观察这个问题,特斯拉拿出来的反击就是它扩城速度非常快,现在奥斯汀已经远远超过Waymo的营运区域,马上加州也要超过Waymo的营运区域。对于我们来说也是一样的,我们从L2往L4走,一开始是全部场景都能让你用,你越用越好,逐渐达到Robotaxi无人化的水平。

因为我之前也是做Robotaxi出身的,我最早的时候也是在一个区域内尝试过把这个算法做精,但是我只能在这个区域做。我有很大的算力、很高精度的传感器设备、先验地图,这样在扩城的时候会非常慢。对于车企来说这个是不太现实的,因为我们不是运营商,我们是希望服务于更多客户,甚至是全球客户,我希望用户能在那里逐渐得到更好的驾驶体验和自动驾驶的服务,这样的路径肯定是不一样的。

虽然现在形态看上去逐渐趋同,这是因为现在L2水平逐渐在往更高级别做,所以看上去趋同,但是技术原理和技术本质是不一样的,包括我们这里区域仿真、全场景的无图,我们现在是VLA模型,包括上一代端到端,我们一个先验信息、先验地图都没有用,这是跟Robotaxi玩家有很大的区别。这就是大家在赌自己技术的预判和趋势了,我们相信肯定是沿着这个路径能服务更多的人。

Q10:这个图跟带宽是什么样的线性或者是非线性的换算呢?比如说你现在要跑一个4B的FP8至少吃150GB左右的带宽,如果降到FP4的话大概吃到什么程度?

詹锟:带宽和精度其实是两个事情,我们在去年做Orin上部署的时候,我们当时就说我们用了int4量化,这个量化其实不是代表计算用int4,并不是,而是在模型做内存带宽转移的时候,我们先把原来FP16的算子变成了int4,然后通过一个你可以理解为矩阵压缩,压缩成了一个低精度,然后放进GPU里面以后,我们又把它用反序列化变成一个高精度数值,然后进行FP16的计算,这个是一个精度的量化。但是刚刚我们说的那个计算的精度量化,比如FP4的计算指的是我进来的时候把这个算子就是带着FP4做矩阵乘加,这个精度审的是你computer time,那个只审传输time,到这里面我们用多少的量化另说,比如说我们量化可能还是用的FP8,过来以后只是计算降了,但是并没有降传输,这个地方我们是组合使用的,我们也是用的int4,但是不是所有。

这个地方就像DeepSeek一样,大家也看到它们用FP8训练不是每一层都敢用的,这个就是量化大家要做的事情,就是你要精细调优每一层,你来看哪些能量化、哪些不能量化,哪些损失大、哪些损失小,我们要把损失小的才能用更小的精度来做量化,损失大的我们就不会动。

Q11:我们会有一个担心,可能算力一直不够用,或者像您刚刚说可以用两年、三年,到时候带宽不一定。

詹锟:所以我们要在同等模型下提升它的智力。

Q12:两个性能你得取个公约数,最后发现单算算力还能用三年,两个都考虑可能只能用一年、两年了。

詹锟:所以我刚刚说的是一套模型两种部署,比如你去SOC上部署是算力大、带宽小,双Orin是算力小、带宽大,所以你在部署的时候可以做不同量化权衡的,它是一个模型,只是我最后推理的时候做一次转化而已,并不会增加额外的成本,而是一个部署方案而已,所以我们会做这样的适配。

Q13:我们早上试驾时体验了一些基础智驾能力,比如靠边停车,这些现在应该已经准备就绪了。今年3月在GTC上展示的拍照等功能,您觉得大概的发布节奏是怎样的?

詹锟:拍照这个受某些事件的影响不太能放,这个能力是可以具备的,但是不太能全量推这个东西,还在商量中,根据国家法规在一起迭代。

Q14:其实我们现在完全离车的功能就是召唤?

詹锟:召唤这个其实也有很多限制,这个要等正式的发布才能看到,国家对召唤其实有很严格的限制。这次给大家体验就是这个意思,能力上其实我们还有很多可以释放,但是我们要跟着法规一起来迭代、一起来研究,我们才敢释放,还是要遵从国家的法规。

Q15:它的法规到底是看到我们的能力会往前推,还是其实它是比较独立的意见?

詹锟:我觉得这可能是一个综合的,一个是能力去推动法规一起,另外一个我们要参与标准的制定,理想汽车也是一起跟政府合作来做这些事情,我们是相互推动的一个事情,首先能力不达到,政府也不会放,能力达到怎么跟政府沟通,政府肯定有他的关注点和顾虑。

Q16:你怎么去消除他的疑虑?他的顾虑是所有的头部车企整体的水平还是别的?

湛逸飞:这是一个很综合的问题,比如安全问题、就业问题很多的问题,所以我们可能不太能代表政府怎么想。但是我们能做的就是我们在这一天到来之前,尽可能地提升自己的能力,这一天到来以后,我们可以尽快地去释放。

詹锟:对,我们是把能力先储备好了。

Q17:高速上我自己感觉,比如说有很多场景可能在决策的时候会比较犹豫,这是上一代模型的问题。这代有没有大幅度提升?第一个是有没有提升?第二个是如果有提升的话,是靠什么做到的?是靠强化学习还是靠对齐?

詹锟:我觉得你问的这个问题就是他们的评测,我们也仔细分析了,我们内部也在思考这个问题,也看到了很多这样的数据,就是思考这些问题为什么会出现有些摇摆,要避让它是横向绕行它还是减速,会出现一些反复,导致要么没刹的特别准,要么距离拉的不够开,上一代软件是有这样的问题。这次我们也是对这类场景做了专门的优化,至少我们去把它加到了世界模型仿真平台里面去看它。

首先我们在内部来看相比上一代的版本有一些很好的结果,另外一个就是我们这次主要还是通过Language的思考,是希望它的决策更稳健、更一致,而不是像VA模型一样,我看到一个东西下意识做出一个反应,它有可能会出现摇摆、抖动,还是跟它的数据配比特别相关,如果有Language的决策以后,它会好一些,就可以知道我之前做了这个决策,我下次要一直做这个决策,或者这个场景我们做一个稳定的判断。

Q18:我能不能理解为靠强化学习去提升?

詹锟:强化学习也是一方面,因为强化学习也是我们训练步骤的一部分,更重要的是训练完以后也会在世界模型里面去做验证、迭代,主要还是这类问题之前并没有特别关注,确实测得很切中要害,非常极端,特别难,不让你避,而且速度不是很一致,它会让你的模型有些疑惑的情况。

湛逸飞:您观察的是很仔细的,就是它的右后侧有一辆车,但是那个速度控的一直让我们在变道跟不变道之间。

Q19:还是懂车帝的那个问题,我看完之后的第一个感受是城区和高速不是一张网——包括绝大多数车企可能都不是一张网,可能大家这几年很“卷”,因为城区驾驶场景更复杂,所以把更多精力放在了城区,高速还是以目标检测等基础能力为主。这个是我最大的感受。不过这个可能不需要前提,比如至少得是VLA或端到端模型才能做到。早上试驾时也跟产品老师聊过,我相信我们现在是一张网了,会针对高速场景做很多优化。具体是在哪些点?高速其实更规则一点,无非就是有一些小问题,现在这些小问题会很占用我们的精力吗?

詹锟:高速和城区其实是一张网,可能只是任务的输出表现不同,但绝大部分模型是统一的。当然,驾驶策略细节和功能性设计会有差异——到现在VLA也是完全的一张网。不过我们会通过不同prompt引导模型产生不同的驾驶倾向,特别是当高速、城市场景的数据配比不同时,模型在高速和城区的表现会有区别,这也是VLA的特性之一。

另外,你说会不会投入很多研发精力?答案是肯定的。高速场景非常重要——Waymo这么多Robotaxi,高速功能还未完全释放,因为高速事故虽概率低,但后果往往很严重。所以我们在这方面的投入一直很多,特别是高速的安全问题,比如超远距离的兜底能力,需要做深做透,追求极致提升。相比之下,城区更强调灵活性,但对事故严重性和超视距准确性的要求没那么高。因此,我们有不同的研发分工,部分同学会专注于持续精进高速场景的能力。

Q20:我能不能这样理解,其实我们高速做了很多年,做到现在为止我们仍然面临着一个相对比较棘手的问题,其实就是超视距的问题,其他基本没太大的问题?

詹锟:对,施工突然改道的那种情况,我们能不能比别的公司做得更好。

投资人:还有一个关于仿真的问题。我刚才看到咱们的数据,到今年基本都是仿真的,但仿真可能存在过拟合风险——比如测的4000多万公里里,可能有部分是过拟合数据,不如真实数据好用。考虑到这点,现在仿真数据的真实性大概能有多少比例贴近真实数据?

湛逸飞:首先仿真数据只是用来评测,您刚才讲的那个我们叫合成数据,并不是所有都用合成数据,只占10%,主要应用于一些我们难以收集的比如像雪天、事故车这种相对特殊的场景我们才用,90%多还是正常的数据。

您说4000多公里会不会过拟合,这4000多公里并不是说我们就这么一批场景一直跑,我们库里有几十万clips的仿真场景,不停地在换。

Q21:随机换吗?

湛逸飞:不是随机换,如果我们哪天发现有一个场景其实是很有价值的,我们就会找一批跟它很像的加进去,就能看它的能力。

投资人:早上试驾时发现,我问理想同学“前面是什么车”,希望得到“卡车”或“奔驰”这样的回答,但目前这个功能好像还没释放出来?

詹锟:这个功能目前我们不在AD域里面来做,我们会放在理想同学里面来做,这个能力其实是具备的,包括你试试超过前面的这个卡车,它会精准地告诉你前面有辆卡车,在不在我这个道上,我是变道加速还是直接加速都会有这个能力。但是你问这是什么车,我们认为它还不是一个智驾任务,这个完全是产品导向,我们也可以后续需要把它更综合的问答都放进来,我们也会再做,包括想哥在发布会也说了我们会有小理师傅,理想同学和小理师傅会有些特定的区分,它主要本质就是小理师傅希望是控车的,理想同学更多是综合的问答。

这是一个产品导向的事情,不是什么特别技术导向的事情。很早这个功能很多车企都有了,但是一问没人用,这个功能有什么用,这个事情就是个伪需求,纯炫技的,所以我们没有在这上面做特别多的东西,我们还是希望能把用户真正想用的功能做好。

Q22:我们看到这次释放了很多有用户强感知的一些功能,比如说像是语音控车、内部道路漫游这种功能,我想问的是如果它不采用VLA这种架构,有没有一些笨办法也可以达到类似的体验,比如说你们可以做到95分,它可能做到80分,但是它也能上去,因为我们看到过去在国内的这些驾驶中是比较容易出现用笨办法来实现一个类似功能的情况?

詹锟:如果没升级技术栈,可能在部分场景下比如做个demo,它可能是可以的,但是你上它推全量,比如我们的地库漫游、园区漫游,你真的不去理解标识牌,它可能要不在建一个图的地方给你秀一下,要么就是我提前给你准备好的路线上试一试,推广到全部用户身上是很难实现的,至少在技术上我觉得不太可行。只有你升级了架构,你才真正能普及更多的用户,以前如果你用高精地图的方式给大家推送城市,它肯定是有限的,不是说城市做不好,甚至有可能比无图肯定要好,但是一个是比如地图变了以后,体验瞬间降低,有很多安全问题、事故问题,但是另外一个就是你没法普及更多的人,这肯定不是我们想看到的,因为我们用户这么广泛,100多万辆的车,希望给大家都带来一致好的体验,所以我们只能升级技术。

Q23:现在语音控车会有一些笨办法可以体验到,因为语音控车我感觉是用户很强感的事情。

詹锟:如果语音控车只是简单几个指令,比如说左变道、右变道,这种用一个基本的ASR的语音识别,它可以转成普通的信号。但是如果我们想做更复杂的比如连续的指令任务,左转再变道,后面变道后直行,这种就不好做了,就非常难,组合式的任务对规则来说是非常复杂的,它是一个指数级的复杂度,所以它的扩展性也会降低。还是这句话,如果秀两个demo,笨办法是可行的,但是从长远来看这不是一个长久之计。

湛逸飞:这个你可以用很多方法去检查,就是同一个指令换不同的说法,如果它不认识了就说明它是规则,但是同一个指令有很多种说法说,它都能理解,可能就是有语言模型。

Q24:我们看到特斯拉FSD V13是展现出来一定的漫游能力,所以说我们能这样下一个判断说FSD V13可能大概率是一个类似于VLA的架构,虽然可能特斯拉从来没有官方说过这件事情,就是从它展现出来的能力可以做这样的合理倒推吗?

詹锟:我觉得是个好问题,我个人感觉他还没有用Language应该是真的,它虽然已经上车的这些还是偏语音交互,它还是一个主VA的模型。

Q25:若FSD V13未用Language模型,如何解释其脱困能力和陌生道路漫游?

湛逸飞:漫游端到端就能做,但是寻路是需要VLA的,我们刚刚展现的是它能找出口,但是特斯拉如果只是纯漫游,它就在地库一直转,出不去。

Q26:其实也看到了一些他们在FSD V13的视频,它找出口偶尔能做到。

湛逸飞:那就是运气,比如正好在这个路口左拐它出去了,但是我们找出口的过程是在EID上能看见的。

詹锟:这可能是技术路线的选择,我也不好说它下一代V14是不是就会加入类似Language的能力,还不好说,有没有可能是过往类似的方向去做,比如它的Optimus同一套技术栈,这是很有可能的。

Q27:VLA的迭代范式是跟之前的VA有比较大的区别,我理解现在我们这个范式非常靠近于大模型的范式,我知道我们应该还有一个在自动驾驶外的基模团队,我们跟这个基模团队是怎么样的一个配合方式?

詹锟:刚刚你看到的湛逸飞说的5个训练方式,第一个阶段就是陈伟(理想汽车基座模型负责人)基座团队来做的,我们这个基座团队主要是解决两类大问题,第一类问题就是我们怎么在校园学习基本知识,我们怎么把更好的通识能力有一些交规知识、驾驶的基本知识教给它,这就是我们的基座团队在做的事情。然后同时会有不同大小的模型,有的供云端,有的供车端,它会进行蒸馏。

第二个很重要的是它这个模型一定是特殊架构适配我们的硬件,其实从想哥的AI Talk里面也能看到,我们这个车上面是一个特殊的MoE模型,叫8×0.4,这是任何开源模型都没有的,只有我们有,这样特殊的结构其实非常有利于芯片的部署,任何直接用开源的模型,比如拿千问的模型都是更不好部署的,要不就是容量比较低,要不就是部署效率比较低。所以基座模型跟我们有这样一个好的合作,它会在基座模型的选型设计上也符合我们的需求,我们是一个紧密配合的组织。

Q28:为什么我们要自己做基模这个事情?我记得技术大会上当时有一页PPT,在我们之前双系统的时候,VLM是一个二维场景的理解能力,我理解可能是因为千问本身不具备三维场景的理解能力,现在基模团队会在第一个预训练的过程中去解决这个问题吗?

詹锟:会的,我们在第一阶段就加了3D信息,我们是紧密合作,我们数据相关的共享和技术栈的共享是非常紧密的。

Q29:刚才您提到“3D空间+2D全局理解”,为什么不是3D全局理解?

詹锟:这是跟目前的技术栈相关,3D空间我们需要把一个七路摄像头转换成3D空间的一个编码,这个3D空间编码一定带有空间深度信息的,它缺少的就是一个完整的,我们叫视锥视图(Perspective View),所以很多的算法如果只带有3D空间理解就缺少了全局语义,因为有些视角你要从不同角度去看它,它才能有更多的信息提取。

所以我们这个设计就是一张图同时进行了3D编码和2D编码,我们组合在了一起形成了一个特殊的视觉token,我们专门设计了这样不同的关注项,同时提升它的全局和3D理解,这也是现在机器人有些公司也有往类似的方向做。

Q30:无论是刚才讲到DeepSeek还是千问,现有的一些开源模型本身不具备三维场景的理解能力,我理解一种可能的原因是它们本身互联网公司不具备三维数据资产,比如说他们有可能通过仿真去做合成数据,或者说可能有一天专门做大模型的公司,他们的基座模型本身具备了三维场景的能力,这个从技术上来说是可行的或者说是可能的吗?

湛逸飞:做机器人的肯定是要做的。

詹锟:现在的大模型是叫虚拟世界的AI,就是Agent,computer use都是虚拟世界的,它这里面基本上都是2D的,除了一些游戏可能有点3D空间。当你进入到物理AI的时候你发现全都是3D的,如果这个公司不做这个业务,它不了解这个业务,别说仿真了,它可能都不了解哪些是它关键3D信息,包括他启动3D空间物理世界模型的这个能力可能都不具备。如果他们想要做一定是有相关的业务合作,我们也是跟基座模型非常紧密的合作,我们会把很多3D数据端到端积累的和早期积累的数据都会进行一个融合,包括合成数据里面有很多3D空间的东西都会给到基座团队,这样它才有可能具备3D空间能力。但是作为一个纯的虚拟视觉大模型公司可能这个能力是比较欠缺的,或者说他现在的重心不在这里。

Q31:所以我理解可能这不是技术上的难点,更多是业务需求,可以这样理解吗?

詹锟:是,但是技术上也会很难,因为3D空间的数据比2D难很多。

投资人:从之前端到端积累下来的高质量的带有标注的数据到了VLA之后,在数据闭环的处理过程中比如说拿标注这个环节来讲是有多少需要重刷重标的,或者说这个过程是一个需要多长时间的事情?

湛逸飞:可以说是都重刷,因为你的标注内容是发生了一些变化,可能同样的一条数据,你在做端到端时候的标注方式跟做VLA是完全不一样的,所以我们就需要重刷,当然这个重刷速度取决于你有多少推理卡。

Q32:我想问一下,第一个就是前面讲到了极端工况,刚才讲到临时的施工包括锥桶这种建模能力感觉不是很精准,我指的是感知和建模,感知是发现了这个东西,实际上建模就是这个模型是否稳定,能够给出很精确的距离,包括你感知到了一个车,它其实是个事故车,刚开始感知到了,后面判断它到底是一个前车还是一个事故车,这些问题上在技术上到底是什么样的难点?

詹锟:我这么理解的,首先你说一些施工、很小的锥桶或者异形物,这里存在几个难点:

第一个难点是视觉可感知的精准度够不够。相机分辨率毕竟有限,哪怕现在用的是800万像素的相机,从120°的视角来看,这些小物体的像素覆盖还是很小。就算硬件能捕捉到这些细节,还存在计算力的问题——能不能把所有微像素的信息都处理掉?这涉及到感知视野的范围、视觉编码器的强度,而这些直接关联到芯片算力。毕竟我们需要做大量工程化优化,才能让模型处理如此多摄像头传来的复杂数据。

第二个难点是综合理解的问题。施工相关的场景我们确实有专门的数据,但里面存在很多歧义。这些歧义连GPT-4o都可能判断不准——比如施工区域是否会对行驶产生干扰?这到底是施工场景,还是车辆在等车?举个例子,之前在中关村看到过,晚上9点下班时,滴滴司机打着双闪、打开后备厢在路边等人,这种情况模型可能会误以为是事故。训练数据里存在out label者清洗不彻底的问题,导致模型判断容易偏移。

另外,这类极端场景的数据本身就比较少,我们需要不断调配模型能力,提升它对这类场景的泛化识别能力。之前因为VLM的帧率或模型大小限制,处理这类场景的速度较慢;现在通过VLA优化,模型每帧都能进行类似的思考和判断,能力已经提上来了。

Q33:刚刚您讲到识别上主要是受限于摄像头,其实在这些事情上面对于激光雷达是比较难产生作用的是吗?

詹锟:没有,激光雷达也很有用,特别它对3D空间的理解,但是你说两三米外有一个小凸起,激光雷达确实能看到这些反射,但是光靠激光雷达去置信它也挺有挑战的,所以我们现在是个前融合方案,就是视觉和激光雷达会放在一个模型里面,它们抽取特征以后会混合在一起来判断它,这样可能置信度更高,相互佐证。

Q34:从技术端的判断,我们解决上一代VLM在懂车帝测试中未实现的一些迭代问题,比如决策、超视距、算力限制、临时快速识别、系统低延迟决策等,大概需要多长时间?

詹锟:我觉得我们这代VLA,湛逸飞他们之前做了很多世界模型,已经在懂车帝的测试上验证了排名有大幅提升。这次i8发布时,就已经有相对显性的变化——这个架构是分几步走的,从现在的仿真评测看,已经在端到端7.5版本的基础上往上提升了,所以它的起点就是这个版本。我们会花3-6个月把这个版本继续快速迭代,把上限打出来。

特别是这一次有很多新东西,希望能引起行业共鸣和新的想法:比如语音交互和记忆功能。当真正无人化后,没有语音交互,车就没法控制——你不可能上去拨杆调速度,只能通过交流让车理解你的指令。另外,记忆功能很重要,每个人的需求是千人千面的。做端到端时,会发现不同人对“这里要不要超车”的回答至少有五种:有人觉得该让,有人觉得该变道,有人觉得该等,差异很大。所以我们需要通过记忆和自学习,让车逐渐和VLA大模型更交融。这样也会产生用户粘性——和以前的“即用即走”功能不同,现在可能和用户有更深刻的交流。

Q35:咱们实现所谓的人机共驾,其实是通过您刚才讲到的语音交互,从小鹏的demo来看,它是通过方向盘的变动来实现所谓的人机共驾,从你们来看这个到底是交互方式的不同还是底层能力的不同?

湛逸飞:底层的不同,能听懂人话跟方向盘是信号,完全不一样。它可能出来都是一些规则实现的指令。

詹锟:方向盘只是在现有的基础上强行的干预。

Q36:现在来看随着整个智驾的发展,关键人物在整个技术迭代的过程中作用力或者影响力有多大?

詹锟:这个东西相辅相成的,时势造英雄,关键人物肯定是能起到关键的推动,OpenAI的Alec Radford如果不去坚持做GPT,可能后面还会有人做,比如谷歌,但是我觉得时间周期不会差特别远,可能是半年、一年、两年,但是是有些关键人去把这个推波助澜出来。

我觉得最重要的随着AI的局势,随着国家的能力、国家基础设施的提升,中国目前可以做的这么好,不是一两个人出来的,而是这么多年基础教育的积累这么多的工程师,人和基础能力都很重要,中国现在基本上在AI落地这块还是非常领先的,但是你说基础科学这部分我们确实还在追赶,包括基础创新能力这也是美国自己的优势,这些东西不是一两个人能决定的,而是一个行业的大势、一个时代的大势。

加微信,进群深度交流理想实际经营情况与长期基本面。不是智驾群,不是车友群。

图片

原文作者:理想TOP2,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!