AI助理
AI助理
发布于 2025-08-07 / 16 阅读
0

不比第一只做三好学生范皓宇和老汤哥聊理想同学和vla

这次访谈是之前理想高管老汤哥和范皓宇继MEGA复盘后的第二期节目,原视频请微博/B站搜索flypig查看,深入探讨了理想汽车在智能座舱和智能驾驶领域的最新进展。以下是对视频内容的整理总结,讨论核心围绕三个主题展开:

  1. 1.理想同学的全面升级 :从一个简单的语音助手进化为具有情感、记忆和执行能力的智能伙伴,背后是校招生团队的创新推动

  2. 2."三好学生"产品理念 :将复杂的技术能力简化为"好用、好玩、好聪明"三个维度,让用户更容易理解和接受

  3. 3.VLA技术架构 :代表着智能驾驶的未来方向,通过融合视觉(V)、语言(L)和动作(A),实现真正可理解、可沟通的自动驾驶

二、核心问题及回答整理

1. 理想同学的形象设计与产品理念

Q:理想同学毛绒玩具形象是怎么来的?

范皓宇透露这是校招生团队的创新产物 :"这是一些校招生,他们的创新和产物...整个这个项目组,基本上全部都是校招生"。形象设计经历了从图标到写实的演变,最终选择了毛绒形象的三个关键原因:

  • 写实化让用户把它当人沟通 :"如果只是个图标,你不会觉得它是个人。但是它写实以后的话,有毛茸茸的,有眼睛这些东西以后,你会觉得它是个人"

  • 加入双手代表执行能力 :"形式即功能...它两个手出来以后,我确实可以帮你点击,帮你去干一些事"

  • 帽子代表角色切换 :"帽子代表了职业和角色...默认的帽子是胡迪的那个牛仔帽,代表了自由"

Q:什么是"三好学生"概念?

范皓宇解释这是将座舱价值具象化的传播策略:

  • 好用 :基础系统、硬件设计、响应速度、3D环视、HUD等基础体验

  • 好玩 :影音娱乐功能,"有个老大哥...已经把他的流量用爆好多好多了"

  • 好聪明 :AI能力,真正的人机对话和执行能力

他强调:"我们不再去比什么第一,比什么行业领先...我只用看说,谁能认认真真的把这三个好真正做到最好"。

2. 技术能力与产品落地

Q:小剧场功能的技术原理是什么?

范皓宇介绍这是端到端语音技术 的应用:"从音频到音频,不再是音频ASR转译,然后再回NLU,再去TTS播报...类似于OpenAI的ChatGPT语音模式"。

[隐含信息] 理想在语音技术上已经达到国际先进水平,是"全球第一个"实现这种端到端语音的车载系统。

Q:记忆系统是如何设计的?

范宇详细介绍了记忆体系的复杂性:

  • 个人记忆与家庭记忆分离 :"Face ID以后的话,你的所有的沟通聊天是...在系统级做了切割存储的"

  • 结构化存储 :"我们认为120多个槽位,基本上对于这个人的描述已经很详细"

  • 受Switch启发的框架 :"既能兼容个人,还能兼容离线...还能够兼容今天的我的这些共有的东西"

3. DeepSeek的影响与应对

Q:DeepSeek出现后有挫败感吗?

范皓宇的回应出人意料:"我其实是很亢奋的,因为我们应该是全中国接入DeepSeek在手机...用了全中国最短的时间"。但他也反思了产品定位问题:

  • 用户定位不准 :"理想车主没有来,就来得不多...因为这个东西确实跟他的理想汽车没有什么关系"

  • 产品价值不清晰 :"如果今天我们就做了一个chatbot...我们每天为这些用户去付出推理成本,and then?理想的收益是什么?"

[隐含信息] 理想在追逐AI热点时一度迷失方向,现在正在重新聚焦核心用户价值。

Q:为什么不急于将DeepSeek上车?

范皓宇坚持品质优先:"要思考五到八秒才能出的东西,我是不可能让它上车的...经过大量工程以后,我们才把我们真的深入思考上到车里去"。他们将查询分为长、中、短思考三类,分别优化响应速度。

4. Agent能力与CUA

Q:CUA(Cockpit Using Agent)是什么?

范皓宇简洁回答:"小程序,用户可以用一句话让它把那个东西都点完了"。

技术实现路径:

  • 基于小程序生态 :"支付宝小程序base的"

  • 采用视觉识别技术 :"用了CUA基本框架就是图形识别"

  • 第一个场景是点咖啡 :"我们要用最短路径去验证,这件事情是OK还是不OK的"

[隐含信息] 理想选择了最务实的技术路线,而非追求技术的先进性。

5. VLA技术架构详解

Q:一句话说明VLA是什么?

范皓宇的解释经历了从复杂到简单的过程:

技术层面:"在预训练阶段,就让这个司机,这个脑子就具备了一些语言的沟通能力"

核心原因:"仅仅靠V(Vision)搞不定...交规是语言啊...我该让还不该让,那是个语言啊"

Q:VLA与端到端的关系?

范皓宇明确表示VLA是端到端的升级而非颠覆 :"端到端的架构没有动...它是下一步"。

VLA解决了三类问题:

  • 静态 :路面、障碍物等(端到端已经做得很好)

  • 动态 :移动车辆、行人等(端到端已经做得很好)

  • 超时距 :"有些事情的话是人可以理解...VLA是完美的去解决这个问题了"

举例说明超时距能力:"在地库里绕一圈...我说要停到C座去...我看到了有一个标识...要理解这是个C,并且知道这不是C车位,不是C++自习室"。

Q:VLA的训练数据是什么样的?

范皓宇用"炼丹"来形容训练过程:

  • 视觉数据 :"精挑细选出来一些关键的视觉信号"

  • 语言数据 :"人类常识信息...跟交通、行驶相关的一些文本"

  • 平衡很关键 :"如果你太多的全是视觉的话,就会对这个模型有干扰"

[隐含信息] 理想在VLA训练上投入了大量精力在工程细节优化上。

Q:VLA会带来体验倒退吗?

范皓宇的态度非常坚决:"我们不能接受任何的倒退...就像是不能接受上DeepSeek,让这个车五秒钟之后再反应一样"。

Q:不同芯片的兼容性?

范皓宇给出了令人惊讶的承诺:

  • Orin、Thor统一适配 :"不会(做不同版本)...全面兼容"

  • 包括老车型 :"22款的老客户都要有"

flypig评价:"鼻烟壶里边画国画",形容工程难度之大。

6. 概念澄清与类比

Q:司机agent、VLA、司机大模型的区别?

范皓宇最终用ChatGPT类比说明:

  • 司机大模型 = GPT (能力本身)

  • 司机agent = ChatGPT (用户可见的产品)

  • VLA = Transformer (技术架构)

他总结用户真正关心的只有两点:"开车开得好不好,话能不能听明白...IQ和EQ"。

7. 产品哲学与反思

Q:理想汽车的科技平权体现在哪里?

老汤哥的回答很有深度:"在理想汽车上面...最科技平权的,和售价无关的东西,就是智能座舱和智能驾驶"。他用人体比喻:"都有眼睛,都有耳朵,但是有些人的眼睛就很锐利...配置都一样,但是能力不一样"。

Q:为什么现在的思维方式还很像苹果?

flypig观察到:"堆砌是最简单的事情。你们现在思维方式还是很苹果"。

范皓宇回应:"什么人干什么事吧",暗示这是团队基因决定的。

[隐含信息] 理想虽然不再明说学习苹果,但产品理念和方法论仍深受苹果影响。

8. 未来展望

范皓宇对VLA的信心:"这是个行业共识...它是很常识很常识一个东西...能看见,能语言能听见,然后你还有行动"。

关于L4的思考:"在L4课题里边...无论怎么自动驾驶...都会遇到那个千分之一的那种火山爆发...需要云端去接它",可以通过"遥操"或"模型接管"解决。

三、关键洞察

  1. 1.理想正在从功能堆砌转向体验设计 ,"三好学生"概念是这种转变的体现

  2. 2.校招生成为创新主力 ,带来了新的产品思维和执行力

  3. 3.VLA代表了理想在智能驾驶上的技术路线选择 ,强调可理解性和可沟通性

  4. 4.工程能力是核心竞争力 ,体现在对老车型的兼容承诺上

** **

原文作者:DaddyTech,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!