AI助理
AI助理
发布于 2025-07-30 / 14 阅读
0

理想基座模型负责人押注具身智能的底层逻辑

以下内容是对于新皮层对理想基座模型团队专访内容的整理总结,采访对象是理想基座模型负责人陈伟和理想同学产品负责人张文博,文章原文见这里<专访理想基座模型团队:为什么我们不能做具身的前3?这是我们必须做到的|新皮层对话>

一、战略转型相关

Q1: 为什么理想同学要从车机扩展到手机与PC? 详细回答

  • 竞争倒逼进化 :陈伟强调"只有看到最强的对手,你才知道你应该怎么做"

  • 场景扩展需求 :手机端用户问财经、健康等广泛问题,而车机用户很少问

  • 能力验证 :从车载大模型演进为通用大模型,需要在更通用的场景中验证

  • 数据闭环 :需要更多样化的用户反馈来建立数据闭环

行业共识程度 :是共识,但理想的表述"参与更激烈竞争才能变更强"带有独特的竞技哲学

Q2: 扩端之后第一件被验证的关键能力是什么? 详细回答

  • 思维链透明度 :"很多用户关心推理过程可能超过最终结果"

  • 可读性优化 :不仅增加思维链,还在可读性上下功夫

  • 时间节点 :4月发布MindGPT 3.0,比MiniMax推出类似模型还早

行业共识程度 :部分共识。强调"推理过程比结果更重要"是理想的独特洞察

二、产品定位演进

Q3: 为什么要大力做端到端语音模型MindGPT-4o-Audio? 详细回答

  • 技术指标 :延迟必须<1秒,实现"边听边说"

  • 用户痛点 :小朋友说话不连续,传统按键式交互困难

  • 交互本质 :口语是"一问一答、一来一回",而非文字的"短输入长输出"

  • 未来布局 :"口语化是拉近人和AI最重要的交互方式"

行业共识程度 :是共识,但理想对儿童用户的特别关注较为独特

Q4: 理想同学的定位为何从"助手"升级到"家人"? 详细回答

  • 三阶段路径 :增强能力→成为助手→变成家人

  • MBTI设定 :ESFJ - 外向、感性、有规划性、有条理

  • 系统工程 :包含姓名、人设、形象、MBTI、故事设定、技能的完整档案库

  • 记忆系统 :未来加入记忆能力,让关系更深入

  • 主动性控制 :李想强调"不要狂刷存在感",需要判断合适的主动对话时机

行业共识程度 :非共识。将MBTI人格系统引入AI产品设计在业内罕见

三、技术理念转变

Q5: 智商与情商会冲突吗? 详细回答

  • 实验发现 :学好代码、数学、STEM等结构化知识,智商情商同步提升

  • 理论基础 :"情商和智商对一个人来说是不可拆分的,对AI也是"

  • 高阶表现 :幽默是智商情商交叉的高阶智能,"没有任何模型能达到李诞水平"

行业共识程度 :非共识。这一观点缺乏学术界广泛验证

Q6: 为什么说研发范式从"交付逻辑"变成"能力进化逻辑"? 详细回答

  • 旧模式 :功能性研发,明确任务,拼积木式各做各的模块

  • 新模式 :协作模式,"击鼓传花",花只有一朵就是模型

  • 边界模糊 :模型与产品间的边界不再清晰

  • 能力溢出 :"模型能力进化的速度比产品能想象到的空间还要大"

行业共识程度 :是共识,但"击鼓传花"的比喻很形象地描述了新的协作方式

四、核心技术路线

Q7: 理想为何认为自身必须进入"基座模型前3"? 详细回答

  • 赢者通吃 :"能活到最后的可能就三五家"

  • 独特优势

  • 维度定义 :"不是语言模型的前3,而是具身智能、VLA模型的前3"

行业共识程度 :非共识。"前3"的评判维度是理想自定义的

Q8: AGI的L1/L2/L3分级是什么? 详细回答

  • L1-L2 :语言模型阶段(含推理)

  • L3起点 :多模态agent模型,需要CoA(行动链)能力

  • 关键区别 :L3不只是CoT,还需要模型自主调用工具解决问题

行业共识程度 :非共识。这是理想团队的自创分级体系

Q9: AGI的核心到底是语言智能还是具身智能? 详细回答

  • 明确立场 :"AGI的核心不是语言智能,而是具身智能"

  • 逻辑推理 :语言模型的scaling law边际收益已下降

  • 发展路径 :需要从数字世界的强化学习转向物理世界

  • 竞争终局 :"整个AI的决胜点肯定是在具身智能"

行业共识程度 :非共识。NLP派与Robotics派仍在激烈争论

五、技术架构选择

Q10: 为什么VLA优于"两层"VLM+VA? 详细回答

  • VLM+VA问题

  • VLA优势

行业共识程度 :非共识。许多机器人公司反而从VLA转向分层架构

六、行业影响与判断

Q11: DeepSeek R1对行业最大的影响是什么? 详细回答

  • 时间提前 :比预期提前半年实现技术突破

  • 技术简化 :用GRPO替代PPO,没用MCTS,问题简化但依然有效

  • 路径削减 :"帮我们把当时在尝试的好几条路径做了削减"

  • 加速效应 :开源让技术扩散速度大幅提升

行业共识程度 :是共识

Q12: L3 Agent的关键突破点是什么? 详细回答

  • CoA定义 :Chain of Action,模型不断思考如何调用外部工具

  • 心流理论 :像人一样"思考-搜索-继续思考"的单一flow

  • 对比传统 :避免"一个人思考,另一个人执行"的割裂

  • 技术融合 :OpenAI o3、Claude 4都在强调工具调用与思维链融合

行业共识程度 :非共识。将Action纳入Transformer内环的公司极少

七、未来展望

Q13: 赢得L3竞赛的先决条件? 详细回答

  • 硬件必要性 :"手机完全无法承载VLA,有V、L,但完全没有A"

  • 数据来源 :需要足够多AI终端收集物理世界数据

  • 竞争格局 :"只有语言模型、没有足够多可移动终端硬件的公司,很可能不能进入AGI决赛"

行业共识程度 :非共识。软件公司如OpenAI并不认同硬件是必要条件

Q14: Agent与模型是否会最终合二为一? 详细回答

  • 公式定义 :Agent = 智能体大模型 + 工具(MCP协议)+ 第三方agent(A2A)

  • 边界消融 :"agent和模型两个概念之间在融合"

  • 两种路径

行业共识程度 :部分共识

Q15: 理想对Agent成熟时间的判断? 详细回答

  • Sam Altman :"温柔的奇点",认为明年agent模型就成熟

  • 理想判断 :"明年后年agent模型还需要继续发展"

  • AGI时间线 :OpenAI认为是"后面几年的事"

行业共识程度 :行业共识是2-3年内有显著进展

八、组织与文化

Q16: 内部如何评估模型? 详细回答

  • 两种模式

  • 方法论变化

行业共识程度 :是共识

额外发现的重要细节

  1. 1.基金投入 :每年投入几千万与高校合作,获取未发表的研究成果

  2. 2.周三研究会 :从2023年开始的每周技术分享传统

  3. 3.组织调整 :李想本人all in AI,成立独立的基座模型一级部门

  4. 4.神秘布局 :两个新机器人部门(穿戴机器人、空间机器人),具体形态保密

这些细节展现了理想在AI战略上的系统性投入和独特思考,特别是在具身智能、硬件终端必要性、L1-L3分级体系等方面形成了自己的理论框架。

原文作者:DaddyTech,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!