[ 导读 ] 理想智驾已经来到了“无人区”。
文|刘俊宏
编|王一粟
特斯拉的端到端自动驾驶到底怎么做的,至今无人能说清。但理想和其他中国第一梯队的智驾厂商们在探索的过程中,收获了最新的三个共识。
要想智驾真正意义全国都能开,过去基于“规则”的智驾开发模式已经趋近极限,需要用大模型“端到端”的方案让汽车自己学会如何驾驶。
但在训练端到端大模型时,过程就像是炼丹。拥有更多高质量的数据只是“原材料”,“正确”配比投入到模型训练中的数据,才能让智驾拥有良好表现的同时,兼顾面对不同场景的兼容性。
虽然,端到端大模型颠覆了过往智驾的开发和训练模式。但端到端大模型所带来的智驾能力提升,目前根本看不到上限。
对于整个汽车智驾行业,2024年无疑是最重要的分水岭。不仅是因为智驾完成了“全国都能开”的阶段性目标,高阶智驾在今年正式开始普及。更是因为当智驾走向大模型端到端之后,各路玩家虽然目标一致,但技术上正在“分道扬镳”。
“已经来到了无人区。没有人说自己的端到端是怎么做的,大家都在盲人摸象。”理想汽车智能驾驶技术研发负责人贾鹏在近期的一个小范围媒体沟通会上对光锥智能称,很多技术都尚处于探索阶段。
大模型端到端在智能化时代,俨然成了车企最深的“护城河”。
带着这样的视角,光锥智能与理想汽车智能驾驶研发副总裁郎咸朋和理想汽车智能驾驶技术研发负责人贾鹏进行了面对面深度交流。从理想汽车大模型端到端智驾研发过程的实践中,揭开了不少智驾“端到端”的“迷局”。
前方干货预警,核心观点如下:
1. 目前“端到端+VLM(视觉模型)”的方案是能够支撑到自动驾驶的。后续会结合大模型的多模态能力,统合语音、语言、视觉、激光雷达最终实现L4。
2. 从端到端开始,智驾才真正意义上是用AI的方式做自动驾驶。真正用数据、算力加上训练实现模型自动化自我迭代,减少过往大量的人力参与,智驾整体迭代速度会变得非常快。
3. 测试智驾大模型的能力需要“考试”能力的配合。不仅需要真人“老司机”驾驶数据的“真题卷”、智驾运行被接管时的“错题集”,还有基于世界仿真+Sora的“模拟题”。
4. 端到端智驾大模型很神奇。投喂什么数据,就能产生相应能力。训练智驾模型最重要的就是数据配比,投喂数据的配比不同,决定了智驾的能力表现。
5. 为了保证投喂数据的质量,还需要配套工具链对数据进行高质量挖掘。
以下为采访实录(为方便阅读,光锥智能做了一些文本优化):
Q:目前理想这套端到端+VLM的智驾架构,是基于什么想法设计的,未来会怎么变化?
郎咸朋:去年战略会时期,我们参考了包括特斯拉FSD在内的智驾方案,发现想要实现自动驾驶的目标,存在很大的挑战。因为不管传统感知决策模型的智驾还是端到端都需要大量数据作为基础。根据已知的数据,通过训练或者人工设计规则去满足智驾的场景。但这样就会导致系统在没见过的场景下不能很好工作。
想要做到自动驾驶,就必须要车辆拥有与人一样的思考决策或者判断推理的能力。所以我们采用了跟人类大脑的思考和认知方式比较类似的双系统架构。具体而言,系统一是端到端模型,系统二用了VLM。未来有没有其他的实现方式,我们还在探索,但目前通过实践和迭代来看,这套框架是比较适合后面做自动驾驶的。
贾鹏:对比了特斯拉在美国的表现之后,我们发现特斯拉在简单道路上行驶很顺,但在复杂道路上的接管率很高。考虑到中国道路复杂程度比美国更高,所以我们认为单独的一个端到端系统可能不够,需要在端到端的基础上再加一个有泛化、逻辑思考能力的一套系统(VLM)。VLM虽然不直接控车,但是会起到提供决策的作用。下一步随着大模型的发展,端到端和VLM两个模型可能合二为一。更进一步,借鉴大模型多模态的发展趋势,也可能朝着原生多模态的方向,统一语音、视觉和激光雷达 。
我们认为,这套范式应该能够支撑我们做到L4。同时,参考具身智能的发展,我们也已经能看到这套模型应用的雏形。这可能就是我们追求实现真正人工智能的终极答案。我们现在实现了无图智驾全国都能开,端到端实践下来效果还不错。再往下,可能就到了无人区,最终通向自动驾驶或L4。
Q:端到端和VLM这两个系统是怎么协作的?
贾鹏:这俩系统一直都在分开实时运行。端到端这边模型小一点,运行帧率比较高,大概十几赫兹。
另一边VLM因为规模参数量大得多(22亿参数),目前运行帧率大概是3-4赫兹。它起到的作用是提供一个参考决策。例如在高速ETC场景,VLM可以告诉汽车走哪边。VLM系统其实一直都在,只是它把决策结果和参考的轨迹点提供给系统一,端到端系统在推理时会参考VLM提供的信息。
Q:后续推送的节奏是什么样的
郎咸朋:肯定会加快。
端到端几乎重塑了之前的研发和交付流程。端到端之前,不管是有图、无图,还是模块化或“分段式”端到端方案,与One Model的端到端差别在于是否有人工参与。之前方案开发是基于需求分析、产品设计、研发、测试,最后到交付的理念。如此一来,当初的设计方案就限定了能力能够达到的上限。
随着自动驾驶的发展,真实场景是无限的,不可能提前定义所有场景。端到端表面上看是一个大模型去替代之前的几个小模型。但在我理解端到端代表着真正用AI做自动驾驶的分水岭。因为端到端是由数据驱动的,是算力、数据、模型相互配合,高度自动化的自我迭代过程。
但同时,端到端时代也带来了模型能力的评价和测试的挑战。因为端到端是一个从输入直接到输出的“黑盒”,我们没法直接写个规则或者直接从决策的角度来评价模型的效果。
那么如何评价模型的能力?为此,我们有一个专门用来检验模型能力的考试模型。其中,这个模型首先根据真人“老司机”的驾驶指标,从我们80万车主中取大概3%的数据作为模型的正样本,也就是“真题库”。同时,我们根据智驾正常测试或开车时,用户接管和退出时发生的状况,生成模型的“错题库”。此外,我们还会根据所有的数据生成“模拟题”,针对模型容易出问题的部分,再生成一些内容训练。
有了这些题目之后,衡量模型能力首先要验证之前“错的题”还会不会出错,然后再考一下之前“会的题”表现情况,最后再用模拟题“考一考”。这样对每一版模型能“打一个分数”后,根据分数表现,再决定是否能进入下一步类似于千人早鸟测试的验证阶段。换句话说,模型在推送给用户之前,已经经过了上述包含了上万公里规模的考试验证。
接下来的早鸟测试,实际上是通过上千辆用户车帮我们做道路验证和测试。在这个过程中,不会影响用户正常开车体验。我们通过影子模式,数据实时回传到后台进行自动化分析,然后根据这些数据再进行下一轮的自动迭代训练。所以你会看到,我们整个迭代速度会非常快。
在之前传统智驾迭代的流程中,场景设计、研发、测试,再到交付之后问题分析和修改,都需要大量的人力参与。但到了端到端之后,数据收集、样本制作、自动化训练、自动化评测考试、自动化迭代,到最后的影子测试,这里面人的参与度变得非常少。
Q:模拟题是怎么制作的?后续如何持续提高模型能力?
贾鹏:考题主要分两种,一种是基于真实数据。我们把正常行驶数据和出错数据拿回来,通过3D重建技术还原场景进行连续测试。
另一种就是很难真实获取的长尾问题,这就需要一些对应的生成工作。之前我们在发布会上提到,我们的世界模型并不是纯Sora那种生成。而是基于重建和生成的结合,相当于在重建的基础上做泛化,生成符合真实世界规律的场景。这种模式与此前自动驾驶仿真基于人为“摆放”的场景不同,本质上可能跟大语言模型训练“大力出奇迹”类似。相比追求单一项目的完美表现,我们更追求模型在泛化能力下,每个能力都能实现90分以上的效果。
后续能力提升,我们首先是组建了一个包含产品、主观评测,还有之前做无图方案的功能工程师的团队,他们写prompt生成场景。此外,我们当前80万的车主在给我们时时刻刻上传case。其实本质上还是人工“出题”和现实数据结合。
Q:利用AI做虚拟仿真,是否改变了整个验证的流程?那些关键技术促进了仿真验证环节的进步?
贾鹏:仿真最重要的还是做出摄像头看到的样子。现在对仿真变化最大的技术就是NeRF(辐射神经场),可以把一组视频还原出3D模型的材质和光照。但3D重建最大的问题在于,如果某个视角没见过,那么生成的部分就会模糊。所以我们现在想把Sora的生成与NeRF结合在一起,把没见过的部分给补上,这样就能产生一个360°的3D世界模型。这是跟以前最大的区别。
郎咸朋:仿真的进步,基本就是解决之前仿真看起来很假和视角缺陷的问题。对比而言,理想自动驾驶的演进其实也是同样的规律。
高速NOA时期,用高精地图方案能解决。到了城市之后,高精地图很难解决。一开始我们尝试用感知配合局部NPN(神经先验网络)的方案减少对地图的依赖。但这样还是不行,只要需要图,那就会存在新鲜度的问题。想达到全国都能开,就必须扔掉图。那么,用传统方式做无图的话,就需要投大量的人力去迭代、更新、测试。但新的问题是,即使投入如此多资源,能力还是达不到拟人的效果。所以我们现在才转到了现在的VLM和端到端。
其实技术的迭代并不像大家想象的复杂,都是遇到问题解决问题。只不过遇到问题之后,第一能不能想到本质,第二是看到本质之后,能不能有决心和执行力解决问题。
Q:VLM是必须的吗,重要性如何?
郎咸朋:我们现在正在探索它的能力。它目前在主路、辅路的车道选择上,已经体现出了价值。但如果没有它,其实也不会出安全问题。我们实现L3主要还是依靠端到端,它代表的是人正常情况下的驾驶能力。但面向L4,一定会需要VLM或者大模型。它可能90%以上的时间不起作用,但它真正能应对未知场景的决策能力是智驾从L3走向L4的关键。
Q:这套能力的系统上限到底是在哪?
郎咸朋:现在我们的端到端和VLM应该是站在了无人区的边界。再往前,其实当前做端到端的各家公司也都是在探索阶段。理想作为One Model端到端的先行者,在探索的过程中,我们发现数据规模带来的性能提升,现在还没有看到上限。论极限的话,可能还是基于芯片本身的算力。我们算了一下英伟达Orin X芯片,大概能够支撑三个亿左右的端到端产品规模。
贾鹏:现在对于大模型来说,目前车端芯片最主要的瓶颈是内存带宽。
Q:现在理想端到端跟其他人的差别是什么?算力规模大概是什么样?
贾鹏:大家现在真的都进入到了无人区,其他厂商也没说过自己的端到端是怎么做的。我们现在的端到端模型是生成轨迹,然后再加一些安全兜底。在模型能力没达到上限之前,还是要处理一些特定情况,例如可能发生的智驾猛打方向盘。
云端算力这块,理想大概是4.5EFLOPS。这个数据其实跟公司的开支有关系,背后还是要用利润支撑。
郎咸朋:随着智驾模型训练,未来算力需求会指数级上升。我们预计,如果做到 L3和L4自动驾驶,一年光是训练算力的花销大概为10亿美金。将来我们拼的就是算力和数据,自动驾驶做到后面其实还是拼钱,是企业盈利能力的比拼。
Q:在数据这一块,如何更高效采集和利用?
郎咸朋:理想的一个优势,就是L系列车型长得比较像。好处是数据可以共用,除了车型有长短大小的区别,所有车上摄像头配置和安装位置都大体一致。而且我们从2019年第一代理想one开始,就开始做数据工作。当时我们是在Mobileye的摄像头旁边,放了一个我们自己的数据分析和采集的摄像头。从这个摄像头开始,我们就在做数据的闭环研发,积累了大量经验。目前我们有80万车主,积累超过12亿公里的有效训练数据。数据量是国内最多的,没有之一。
贾鹏:数据只要把传感器原始数据和汽车的驾驶行为拿回来就够了。
郎咸朋:一个完整的数据,是大概20秒到30秒左右的小视频。它包含所有周围摄像头、激光雷达等传感器的数据,以及这几十秒之内方向盘、油门、刹车等的车辆驾驶数据。
Q:数据工作最重要的部分是什么?
郎咸朋:模型和数据迭代相关联,如果算法迭代,那么对数据的要求也会改变。但总之,需要的原始数据都是一样的。
数据工作中,最重要的部分就是数据配比。举个例子,今年早期测试的时候,发现模型平时开车表现还不错。但一到等红绿灯的时候,车就总想着变道。后来我们发现,是平时训练的时候删掉了很多红灯前等待的数据。这份数据的重要性在于,它让模型知道等待的重要性,而不是一旦慢下来就要考虑变道。
训练端到端模型,跟古代炼丹没什么区别。正确配比数据,直接影响自动驾驶的体验得分。认识到数据配比的重要性后,我们还配套研发了用于后台数据库的数据挖掘小模型、场景理解小模型、数据查找等的一系列配套的工具链和基础建设。这些小模型的意义,在于我们后台系统能很快速挖掘或获取某个特定数据。这也是我们多年积累的一个非常重要能力。某种意义上说,这种能力甚至大于模型的能力,没有这些原始数据和基础建设,在好的模型也难以训练出效果。
Q:发现红绿灯的问题,再去定位数据缺失。这种训练方式跟以前有什么不同?
郎咸朋:我们有一套非常好用的工具链。比如发现一个Bad Case,会回传到我们内部的“分诊台”系统,自动分析到底是哪里的问题。这套模式并不是基于传统意义上的分类,也是经过模型训练给出的建议结果。有了结果之后,再根据建议找到类似的场景,或是告诉我们训练样本需要补充什么样的数据。然后在进行下一步的训练。
最终还是回到数据“调配方”或是“调配比”的训练中来。
Q:整套优化流程是否可以理解为,先发现问题,诊断完再找到更好的片段补充训练?
郎咸朋:对,而且我们整个过程就跟治病一样。类比治病可以同时使用多种药物,我们会同时训练多个模型。所以训练算力的重要性,再次提到了台前。我们现在最多同时训练十来个模型,再经过评分系统打分。
贾鹏:训练模型最重要的是两个方面。第一是数据的配比,针对一些类似的场景,需要加多少数据才能把Case解决掉。这背后是对不同场景对数据要求不同的know-how。第二点是模型的超参。加入新的数据后,针对模型内部的参数如何调整,我们一般会有5-6版模型同时训练,然后再看哪一版解决了问题,同时得分也更高。
Q:端到端模型最难的是解决什么问题?
贾鹏:端到端本质上是模仿学习。数据端只要控制质量,给了什么样的数据,它就能模仿下来。但模型同时还有一定的涌现能力,所以从中模型会生成自己原本不知道的能力。就像环岛一样,模型自然而然就学会了。我觉得所有的控制量都在一头一尾。
“一尾”现在是通过模型来考试。但我们团队现在花最大力气的,是精确数据配比和保证数据质量,解决“一头的问题”。
因为模型本身能投喂的数据量存在上限,投喂太多,模型就开始遗忘了。所以最难的事情就在如何在限定的投喂数据量中,分配每个场景投喂的数据量,让模型实现最大的兼容性。现在我们做了很多的工具链。比如给数据打标签,这些标签打的越细腻,配比的时候就更容易精确“抓到”。针对不能容易智驾打出标签的,我们从中提取特征,判断这段数据跟其他那一段相似度高。
这些能力都是外界很难看到的底层应用,我们也是慢慢积累过来的。
Q:大模型接下来有什么打算?
贾鹏:我们目前的大模型分成了两块。一块是车端VLM视觉语言大模型,就是系统二,是用于车端决策的;另一块是云端的世界模型,用于系统一和系统二的考试和验证。将来可能在车端整合系统一加系统二,再加上云端这套用来考试的模型。再接下来,我们可能会整合一套理解加生成合一的超级大模型。这样通过蒸馏或者强化学习的方式,把大模型的知识都放到车端。
郎咸朋:刚才贾鹏提到的构想,实际上是我们RD(研发工程师)团队正在做的预研。
我们去年9月份在战略会上,李想第一次明确了两件事情。第一是智能驾驶是公司的重要战略,第二是我们技术预研是走向未来人工智能领先的重要工作。对应到我们自动驾驶团队内部,我们一直都有一条交付的明线。另一条暗线则是预研。之前我们在交付上投入了大量的资源,但我们的算法和研发人员会自发的去做 RD工作。在交付最忙的时刻,还会对外发表一些技术论文。
所以结合近一年来理想智驾能力的变化。实际上我们在做百城NPN(神经先验网络)的时候,就已经在做无图的方案。今年1月份切到了无图方案后,端到端就在做预研了。目前我们的端到端正在做一些后续的迭代和鸟蛋交付的工作。再下一步技术方向的预研,包括统一的大模型和我们对L4的探索。
Q:理想端到端团队的规模大概是多少,包括之后组织上有没有什么变化?
郎咸朋:我们组织主要是基于当前技术和业务方案的变化,经过了一些调整。
之前做无图的时候,就在端到端的初步预研。起初我们参考华为扩张智驾团队的模式,发现这样需要全国各地都要铺开,问题分析、研发工程师、测试人员都需要招人。但是结合刚才提到的智驾能力提升,扩张团队不能解决智驾走到自动驾驶的根本问题。
所以我们回归用户需求。用户具体的需求可能不是要智驾具体的接管率数值,而是一个像老司机一样的智驾体验。如果这样看的话,那么之前偏规则的方案可能永远都达不到。不管是模块化架构还是“分段式”端到端,只要涉及到规则,研发效率就会低,而且还会掺杂人为的理解。拿我们现在端到端和无图两个版本对比,端到端会在细节上更拟人化。例如转弯操作,原来的方案是根据一些参照物生成确定性的转弯路径。但如果是人来操作,就会考虑通过路径中的更多因素。总之,具体存在的规则,会让用户实际体验觉得别扭。
所以我们看到,如果铺人力用规则来做智驾的话,第一是需要大量的人,第二是这些场景还是做不过来。所以就要升维解决这个问题,用模型驱动的端到端方案。基于此,我们年初跟李想讨论,如果智驾技术走向下一阶段,可能需要迭代整体技术和工作方案。同时,团队可能也不需要用到那么多人。
参考我们智能驾驶团队过往的决策和组织调整,都十分注重执行效率。2021年,我们切入自研,2022年,拿掉了角雷达。2023年,我们技术进化了三代,从有图到NPN(神经先验网络)到无图,再到现在的端到端。组织的决策速度和执行效率,是我们一直以来的优势。对应现在的组织规模调整,我们觉得完全可以参考特斯拉。特斯拉的软件和策划团队一直是比较小的规模,大概200人左右。我们比特斯拉的车型多,再加上智驾有max和pro两个平台。所以我们组织的人数,会比特斯拉多一些,但不会到几千人那种规模。
所以本质上还是组织跟着业务需求而变化。原先解决问题的人,现在变成了设计解决问题工具的人。
Q:接下来的交付预期?现在是否还有实车按照地区跑测试?
郎咸朋:我们不会按照地区开放功能。全国车主只要能更新,它就在各个地方都能跑。
接下来的推送节奏,我们还是以考试和成绩作为主要参照。考试首先得维度还是安全性,这部分不允许智驾丢分,其次再是能力和挑战的题。智驾模型通过考试后,我们通过千人早鸟的方式,推到正式的用户车上。当然,在推送之前会跟内测用户沟通好风险和问题,并希望通过他们在实际道路上测试,我们再收集和解决问题。
至于能否使用接管率,统计学意义上的指标来评价新版本是否可以推送。我们还在迭代具体的指标。但具体下一步推送,千人之后可能会再推一个万人。但总归我们希望越早推送越好。用李想的话说,最快在今年,最慢也是明年上半年。
Q:咱们后面整个端到端技术升级的路线会分为哪几个重要阶段?阶段的规划是怎么样的?
郎咸朋:目前我们现在的方案还没看到上限。同时,我也认为它可以帮我们走到 L3。在这个过程当中,我们需要做的只有持续迭代自己的数据和算法。
Q:环岛这种比较难的场景,在技术上要如何解决?什么节点能解决掉?
贾鹏:环岛问题现在已经解决了,我想分享一下这个过程中有趣的故事。我们起初投喂80万clips的时候,还过不了环岛。后来当数据量达到100万clips时,他自己就能过环岛了。我觉得是100万clips里头刚好有一些环岛数据的原因。模型确实很神奇,你喂了什么数据,他就能学会相应能力。ETC场景也是类似,现在端到端的版本能自己过ETC。这是因为VLM在理解文字和LED指示灯后,对汽车进行了指引。
Q:这是否意味着,环岛、掉头等能力,只有端到端才能做?
贾鹏:如果是以前分段式的智驾,那就是首先要感知,然后让规控生成各种假设。比如调头的话,就要拟合出调头线。但不同路口的掉头场景不太一样,生成的调头线也不一样。换句话说,难做到一套代码把所有环岛、调头搞定,种类太多了。
郎咸朋:端到端本质是能力。只要模型能力够了,就能实现这种功能。就像是我们之前的经验,没有特意设计过环岛,但一下子突然能过了。同样,上个时代大家觉得ETC很难。现在你会发现它自然而然就可以解决。我觉得这是技术或者维度的代际提升所带来的变化。不过,端到端这一代技术也有自己的问题,我们也还在持续探索当中。
Q:未来智驾商业化有什么考量?
郎咸朋:如果真到了L4阶段的话,我相信可能会有一些变化。我们现在是不收费的,用户选择AD Max版本时补了差价。我希望随着我们产品力的提升,用户对自动驾驶的认可。或许结合自动驾驶的安全性,包括商业保险这一块都可以进行商业模式的探索。
但最重要的还是,端到端把智驾的门槛进一步拔高。如果智驾玩家缺少数据和算力,那么它与领先的差距会越来越大。对应到企业运营上,就是更多的资源,资金的投入,车辆的销售。