原始材料为腾讯视频《一问》第四季第一集
原视频链接:
https://v.qq.com/x/cover/mzc00200gkeg7cz/i1252uir0ik.html
压缩版:
理想汽车这次创业很重要的一点是希望数字化科技能够改变物理世界。L4提供24h职业司机,空间定义有可能像游艇高铁商务舱私人飞机。在舒适空间里工作休息与家人朋友待在里面。
李想认为理想VLA模型本身是全世界跑在前面的,和海外自动驾驶没有差距。
较其他科技巨头,理想做AI核心考掌握物理世界的数据、本体、算力和模型。
做AI公司,核心带来技术本身、产品、组织三方面变化。必须做技术预研,AI是能力,不是功能或工具,这个判断会非常影响产品。李想自我提问组织的预训练后训练来自什么?
传统汽车公司重流程,轻人才密度。顶级互联网公司轻流程,重人才密度。理想目前思路是把人才密度当成主体,否则做不了AI,将流程定位为工具,不能放弃。
一个很大的挑战是如何开发一个类似Agent OS这样的系统,让专业人的人自己生成专业Agent。
在推动公司朝AI转型升级过程中,李想扮演的角色是拉动大家认知,AI认知包括四个方面 行业前沿研究工作/最佳实践,内部研究工作/最佳实践。内部分享时有人问,这么前沿的东西,有的人听不懂怎么办?李想表示可能没有办法,现在就是只有少数听得懂的人来做判断与决策。
转型AI过程里最艰难的决策是如何投资算力?短期没有商业回报,花钱多,不花钱又做不出来。模型是大脑,算力是行脏,AI操作系统是神经,硬件是身体。
在资源投入方面李想的角色是给大家出题,比如实现L4,实现L4需要什么样的模型、端侧算力、云端算力、操作系统、本体,不会出短期题,除长期题。认知每周每天都要迭代。
李想看到两个画面,1.2030年带有全自动驾驶的汽车,会成为物理世界最大的人工智能终端。一家企业很容易产生远超iPhone的规模。2.智能车会吃到司机服务/汽车服务/空间的市场氛围。
可以说理想是物理世界里的机器人服务公司,为用户提供硬件/软件/服务。目前3万人,2030年,收入可能扩大5到10倍,但人数不要超过5万。
关于原来的5常论,李想提出有了新的衡量方式,关于是如何具备AI五阶段进程里对应的组织能力,而不侧重有几家能活下来。
硅基家人概念可以参考钢铁侠中的Javis。
更详细版本:
Q:未来10年AI对你所在行业最大的改变是什么?
李想:如果拿10年来算的话会是个整体改变,不会说只是改变我们所在的一个行业,到2035年我认为我们现实中的80%以上的工作都是由AGI来完成,非常坚定的相信的10年以后会产生的一个世界。
Q:除了工作,人类的生活呢?
李想:我觉得人类去做更多有创意的生活,包含人类还可以重新回到公元前有更多的人,然后大家在一起聊着去探索去提升智慧。
Q:你在2022年9月的时候,就已经明确提出理想要成为一家人工智能的公司,是什么事情令你有这样的一个想法?
李想:我这次创业一个很重要的一点是希望数字化科技能够改变物理世界,因为我原来做的是互联网,包含我做汽车之家,我们当时有想过很多商业方式,比如像汽车电商,但是发现其实非常难,因为一个汽车的完整交易会有供应链、制造、仓储库存、物流、体验、服务。这所有的环节,这些都发生在线下,并不是我们在线上,只是多了一个收取用户线索的方式就能真正把电商打通,其实本身我们除了多花一分钱并没有改造任何的东西。
创办理想汽车的时候也很重要的一个目的是说我们怎么能够拿数字化去改造物理世界,所以你可以看到我们会自己来建造工厂直营的销售服务体系也会自己去写工厂的软件销售和服务的背后的一些软件。
纯粹靠it的方式去改造其实还是非常有限的。因为物理世界发生了很多的事情,最后发现其实人工智能是能够真正改变物理世界的,因为它会像人一样就能够感知思维和判断,最后去能够操纵机器或操纵工具进行执行,这是我们当时看到的一个最大的机会。
Q:借助AI技术怎么重塑整个汽车的产业?在功能体验服务效率而且不同环节没有什么改变?
李想:最大的改变还是来自于L4自动驾驶,第一个方面其实把我们的时间解放,给我们提供了一个24小时的待命的职业司机,而且比我们更好更好安全。第二其实把车解放成一个真正的空间,为什么一定要这么坐着?为什么不能像游艇高铁的商务舱私人飞机那么坐着,它又不需要增加什么成本,我随时可以带来一个舒适的空间里边,该工作的工作该休息,我也可以跟家人跟朋友待在空间里,这个会发生一个非常大的变化。
Q:已经能实现全部辅助驾驶了?
李想:他理解人的语言就跟司机是一样,最大的好处就是说他从原来的Vision到Action中间多了Language,这个Language有两个重要,一个是能够像人类一样去泛化的思维,因为语言是人类的逻辑。另一方面跟人直接沟通了,我们今天怎么跟司机沟通,就跟他怎么沟通就可以。
Q:理想这个VLA技术比海外的人工智能的汽车自动驾驶的技术差距有多大?
李想:我觉得没有差距,我们是全世界领先启动VLA研发,而且包括预训练,后后训练,强化训练,包括世界模型生成是一个很复杂的体系,可能稍微在国内受限制的话,其实还是来自于一方面算力,另外一方面模型规模也扩大了,原来车上的都是几个亿的小模型现在基本上我们一般要往70亿甚至130亿去做。自动驾驶是要把算力跑在终端上的,这个其实是接下来可能会面临更大挑战,但是模型本身我觉得应该是全世界跑在前面的。
Q:VLA模型能够帮助你带来哪一方面的突破?
李想:过去都是纯语言模型的时候,它有两个问题,第一个它在Vision上面表现是很差的,虽然大家讲多模态,也能识别图片,但是都是互联网上扒出来的分辨率比较低的图片,而我们要在物理世界里面去解决问题,它得有物理世界真实的图像,而这个图像不仅仅包含一个照片,视频还包含于激光雷达。因为图片只是说这是什么东西,其实真正在物理世界运行中并不是只是知道它是什么东西,而且你还要理解它在物理世界运行的规律。
还需要做Vision和Language的联合语料训练,就是我看到一张导航的图片它到底意味着什么?我看到一个车拥有三维空间的3D高斯以后,我知道它的距离和接下来的动向,另外一方面如果我们其实在座舱内坐,因为它是个封闭空间它仍然需要视觉看到东西而不是只是靠语言就行了,就像刚才在车上说了一句话,它就知道开哪一侧的门,因为它能识别我的位置,最重要的一点其实就是让它能够像人一样要去思考去理解这个世界,我觉得这是一个很大的变化,总之我觉得就是跟人越来越像。
Q:比起一些互联网巨头,科技公司,一家创业公司,你觉得你们做AI的最主要优势或者底气在哪里?
李想:物理世界。我们拥有物理世界超多的数据,物理世界的本体、算力和模型,其实我们的愿景是能够成为物理世界领先的人工智能终端企业。
Q:理想世界模型扮演什么样的角色?
李想:物理世界有两个问题,第一个问题是它的数据量其实有限的,第二个是在向人类学习过程中,人类有很多坏习惯抹不掉。
比如很多的老司机开车的时候就是有很多违规行为,而且能比较好躲避交警。
但这些数据其实你并不能单独把他的违章的帧数删掉,因为它就没有了一个真正的从Vision到Action的连贯性了,我自己开车有坏习惯没有问题,但是如果你机器人开的时候还是有坏习惯不能忍的。所以这时候我们就可以拿真实的物理世界这些数据做一个非常大的一个底座,在这个基础上然后来做Diffusion生成我们想要的更干净的世界和更干净的数据,再去训练智能体。
Q:你本来就研究数据技术来创业,然后你再提出AI成为一个人工智能公司,对公司内部战略产品技术带来什么样的变化?
李想:完全不同了,这包含三种不同的方式,第一种是技术本身,第二种是产品,第三种是组织。这三个相辅相成。
项目技术研究工作是很重要的,我们过去的时候写一个软件,不需要搞什么研究工作,在人工智能领域它几乎是一个先解决认知问题,所以你要先搞研究,而且这个研究不是个单体的,比如说模型要配合着算力操作系统,甚至包括后面的Infra,然后整体来做研究它才能打通。
那从产品的角度而言也不一样了,过去用工具用编程写应用,所做的都是功能。但是人工智能不是工具不是功能,是能力,甚至像人一样的存在。这时候就有一个很大的挑战,我们到底应该怎么理解这个产品?
组织也是一样的。你组织的预训练后训练来自什么,如何去打造智能体?
会不会在5年之内我们日常的工作80%由AGI来完成,所以这三个都是挑战,也都没有完美的东西,都需要我们去探索。
Q:理想要成功转型成为一家人工智能公司,你觉得在组织架构里面有什么是要迭代让它更像我们说AI原生的组织?
李想:其实你可以看汽车类类企业其实都是重流程的,会把各种能力沉淀在流程上,不会遇到什么汽车类企业去花几千万美金去挖一个人,因为它的流程体系重要,这些顶级互联网公司,讲的都是人才密度而轻流程,在平台软件服务人工智能方面其实做得非常好,但是往往他们做硬件的时候就会遇到挑战。
我们其实的交叉的一个性质既要做硬件,因为在物理世界里是终端,又要做人工智能,所以这时候就出了一个挺重要的题,我们到底应该怎么做?我们应该把人才密度当成主体,跟这些互联网公司是一样的,否则你AI做不了。
第二,其实我们又不能放弃原有的流程体系化的东西,所以我们可不可以尝试一种方式,就是我们的主体是高密度的人才,应用方法论在一起,但是我们仍然会使用像IPD有效的流程,可以把流程工具不断去优化,形成这样的一个整体,这样可能是我们今天能找到的一个解决想要成为人工智能时代终端企业的一套,感觉上直觉上有效的管理方式。
Q:但是对你来讲,你有碰到工厂,碰到研究院研发人员两群人,他的知识结构、人才密度、工作方式都非常不太一样的,所以你怎么能够把这两群人管好?
李想:高维的管理能够兼容低维管理
Q:怎么能够推动大家在不同环节里面应用AI来提升效率或者防止大企业的病?
李想:有一个误区,ChatBot、Reasoning并不提升效率,无数人在天天用这些东西,最后只产生两个结果,第一个结果是每天工作时间没有少一分钟,第二个其实思维能力越来越差,所以我觉得这里边有一个很大的挑战是如何开发一个类似Agent OS这样的系统,能让我们每一个专业的人自己亲手去创造属于他这个专业的Agent,让他自己去训练自己,所以他要有创造力的能力,也有管理和使用Agent的能力,我觉得这个其实才是根本。
Q:作为CEO在推动整个AI的转型升级的过程里面,你最主要扮演什么角色?
李想:拉动大家的认知。比如人工智能认知包含了我觉得4个方面,行业的前沿的研究研究工作,行业的最佳实践,内部的研究工作,内部的最佳实践,这些会形成大家的认知。而且很多人也会问问题,说我们在内部的分享交流的时候讲,那么前沿的东西,有的人听不懂怎么办?我觉得可能没有办法,因为AI就是有少数听得懂的人,无论是在这个行业里还是在这家公司里,然后来引导方向的,那么来做判断来做决策的,而不是每个人在这个阶段都听得懂。
Q:转型升级拥抱AI的过程里面遇到一些最艰难的决策?
李想:最艰难的抉择是算力到底怎么投资?因为它短期并不会直接带来商业回报,但它花的钱非常之多,但是你如果不投资,你会发现AI是根本不可能做出来的,投机取巧去做AI是不可能的。
所以其实是一个很大的矛盾。
Q:哪一方面的资源投入是最大的?
李想:人工智能不是一个单体,它跟人没有区别,模型相当于人的大脑,算力相当于人的心脏,ai的操作系统相当于人的神经,而我们做出来一个硬件相当于人的身体,你说我只有脑子好,但是我神经是有缺陷的,很小的心脏这个脑子就没法运行。如果说这4个是相辅相成的,要在这4个方面,然后都去投资,包括模型的方面,预训练后训练,强化训练算力的方面,自研的芯片,后边的Infra。第三个包含操作系统,而且是围绕AI来做的操作系统。第四个包括我们然后自己去做线控系统,也都是为了让本体更像人一样的去工作,这些东西都是要投资的,
Q:你现在在这方面投入了多少?
李想:包括人工智能的模型,算力。还有机械这些放在一起投入,一年60多亿。在汽车领域里应该是投资最高的。
Q:在资源投入这方面你是扮演什么角色?
李想:我的角色是给大家出题。比如我们什么时候实现L4,要实现L4,需要什么样的模型,什么样的端测算力,云端算力,操作系统,什么样的本体,但我不会出一个短期的题,我出一个长期的题,大家反复的来针对这个题,去做每个方面的分析。
Q:这里出题由上面的相关部门思考研究,比如这样汇总到你这边,由大家形成共识,各自有执行他们的相关的一个工作?
李想:是的,我更重要的是出好题,先带领大家有一个更广泛的认知,而且认知不停的去迭代,每周都要迭代,甚至每天都要迭代。
Q:AI的技术不断升级的话,未来3~5年你最希望理想发展成为一个怎么样的公司,有没有画面感?
李想:我能比较清楚的看到两个画面,我觉得向外看,我认为往后看到2030年带有全自动驾驶的汽车,会成为物理世界里边最大的人工智能终端。
而且一家企业很容易产生出来,远超苹果iPhone的规模,因为汽车的产值足够的高,其实iPhone并不是简单,只是获得了手机的市场份额,它还吃到了游戏机的市场份额,吃到了音乐的市场份额,也吃到了软件分发的市场份额,就跟我讲的,其实车也不是只是吃汽车的市场份额,然后他会吃到司机服务的市场份额,它会吃到汽车服务的市场份额,它也会涉及到空间的市场份额,这是一个非常好的空间,人类是愿意为一个高品质的私有空间付钱的。
全世界都是一样的,所以这是我能看到的一个重要的场景。人的生活会变得非常丰富。
Q:所以将来理想不是单单造车跟买车,你想会变成一个围绕移动空间的一个生态?
李想:我们说我们是一个物理世界的机器人,然后一家服务公司,我要给用户提供包含硬件的产品,所有的软件、所有的服务,刚才是支持我面向消费者的场景,对,如果面向内部的一个场景,我们今天有3万多人,到2030年的时候,可能我们的收入能扩大5倍到10倍。
但是我的人数不要超过5万人,如果没有AI技术,我们可能到时候需要25万人到30万人,成比例的我要有25万到30万人,但是由于有了AGI的出现,我们认为5万人来支撑5~10倍的收入的规模的一个增长,而不是要扩大到这种规模的汽车企业,这样的收入的时候要有25万人到30万人,不是这样子的。
Q:所以这个演变会很大程度改变现在的所谓传统的汽车行业,你以前提过一个5常理论,那么你觉得 AI的话让理想有机会进入五常?
李想:我觉得可能到了人工智能现在是又会有不同的衡量方式,关键还是你到底创造了什么超越用户预期的,我觉得这是一个很重要的挑战,或者说我说一个可能不太恰当的比喻,如果人工智能到了AGI的第五个阶段是个人类的竞争,可能今天我们在造车的方式,我们更像一帮猴子在竞争,而竞争的最后的核心的门票是谁能够升级成人类,有可能大家都进化的人类,也可能只有少部分人进化到人类,不知道,没有必要非得设定做这样的一个预测,只是我要确保如果有猴子能进化到人类,对我是能进化到人类的猴子。
Q:更长期的话,你提出一个叫硅基家人愿景,为什么提出这个愿景?它能够解决用户哪一些更深的一个需求?
李想:我来看整个AGI的竞争,我认为其实是5个阶段连在一起,第一个阶段ChatBot第二个阶段推理,第三个阶段,然后智能体,第四个阶段创新,第五个阶段组织者。就必须到了组织者那个阶段才能决定胜负。很多人今天看车的时候只是想到自动驾驶技术,比如智能体这一个本身,但是有一个问题就是说如果我们拿人类的数据训练智能体,它永远这个小于等于人类,对吧?
如果我们能够其实生成比人类更严格的数据,更丰富的数据,比如开这个车掉到坑里了,请问怎么从人类获得大量掉坑的数据?这死多少人,所以我可以生成一模一样的掉坑的数据来训练模型,因为世界模型本身是一个出题者创新者,他来给他出题,从而让真正的智能体育运行的时候比人类还要安全10倍甚至100倍。
但还有一个很重要的问题,如果我们在路上跑着运行着上千万的自动驾驶的机器人,请问怎么管理它?所以世界模型最后还会生成一个机器人世界超级管家,管理着成百万上千万的机器人的运行。今天我们来看的时候,不能只看从AGI的第二个阶段到agi第三个阶段就从推理到智能体的一个阶段,你要去思考组织者怎么来运行,这些机器人它跟人的挑战是一样的。
Q:那么在产品端基于这个技术,比如说到智能体L3的话,L4甚至L5刚才讲硅基家人这个愿景的话,什么产品的形态会出现?
李想:我觉得它非常有意思,其实我们把AI分成5个阶段,其实产品落在135,第一个就差不多表达出来的节目是增强我的能力,就让我多多获得一些知识。它更像是一个搜索的延伸,智能体是成为我的同事,他要么跟我一起在工作,要么他变成我们的员工,然后放到用户的车上,产品上去工作,放到用户的家里去工作。
我觉得第三个阶段其实它是个组织者,最后他会成为我的家人,他是我的超级管家,他非常像最终阶段的钢铁侠的托尼斯塔克克的Javis,因为他在复仇者联盟4,为了拯救世界自己去世了,但是仍然在跟他的助理在管理斯塔克公司,而且经营得非常的好,所有的经验认知能力都被他延续了,他仍然在帮着,然后管理他的家,包括照顾小甜甜和她的女儿,我觉得这是我们看到的这一届的到第五阶段的,他们要么成为一个巨大的商业体的管理者。
要么其实它会成为我们每个人的一个私人管家,他连接我所有的关系,他帮我调动所有的智能体,一个是真正的硅基的家人来帮我们管理这一切。我觉得这个是我觉得我希望我自己在有生之年一定能够去实现。
加微信,进群深度交流理想实际经营情况与长期基本面。不是车友群。
