湛江海绵胶 21访|小米陈龙:陪小米智驾长到十八岁

134 2026-05-12 09:40

万能胶

  4月1日,《21汽车·见Auto》与小米汽车智能驾驶基座大模型负责人陈龙进行了次面对面访谈。

  “小时候,我们学说话和认字。随着慢慢成长,我们会经常摸、拿、抓、取些东西。等到我们具备了强大的语言能力和对空间的理解和理能力,差不多十八岁以后,我们再去学习。这样才能将我们习得的切融入驾驶之中,不仅开得快,还开得好。XLA 大模型也样。”在访谈时,陈龙对我们说。

  3月份,小米刚发布了新代SU7,并宣布辅助驾驶升到 XLA 认知大模型架构。小米集团董事长雷军在新代SU7发布会上称,之所以命名为 “XLA” 而非业内俗称的 “VLA(Vision-Language-Action Model,视觉 - 语言 - 动作)”大模型,是因为模型具备“多模态的认知输入”:小米还融入了声音、机器人数据等模态。

雷军介绍小米 XLA 认知大模型

  陈龙就是开发 XLA 认知大模型的负责人。童年时,他喜欢美剧《霹雳游侠》里的智能跑车 KITT,这台跑车有鲜明的自我意识,通过自动驾驶多次帮助主角化险为夷。长大后,他曾在英国剑桥大学孵化的自动驾驶公司 Wayve 任职,是将 VLA 模型引入辅助驾驶域的先行者,致力于令大模型的驾驶决策过程加透明。年之前,他加入小米,担任辅助驾驶 VLA 技术负责人。

  彼时的小米辅助驾驶架构还处于 “端到端(End-to-End,种度学习模型范式,直接从原始输入映射到终输出) + VLM(视觉 - 语言模型,Vision-Language Model) ” 阶段。陈龙将这阶段的核心,提炼为“数据驱动”。端到端拆掉了传统辅助驾驶的“感知”“规划”“决策”模块,通过直接灌入大量驾驶场景数据,直接让模型学习并输出驾驶行为。2024年,国内车企及供应商集体切换到端到端架构,辅助驾驶的整体水平均得到了质的提升。

  但进入2025年,端到端架构的缺陷开始显现。通俗来说,大模型虽然靠“死记硬背”海量的驾驶数据提升了自己的驾驶水平,但现实世界总会出现多元、复杂的驾驶场景。大模型需要真正理解和认知人类社会和现实世界,才不会在现实世界中遇到新的场景时“傻眼”,像老司机样思考,做到“举反三”。——陈龙将新阶段的核心,提炼为“认知驱动”。

  先让大模型长到十八岁

  可是如何才能让大模型学会“认知”?

  端到端时代湛江海绵胶,大模型被灌入了海量的驾驶数据,但这些数据还不够。陈龙需要造个庞大的具身基座大模型,这个模型中不仅需要驾驶数据,还需要有机器人数据、多模态数据(图片、文字、)。

  加入机器人数据,是为了让模型如同人类从孩童开始般“与各种物体进行交互”,理解“物体与物体之间的逻辑关系”。而加入海量的多模态数据,是要让模型如同人类从孩童开始般识字,慢慢发展视觉和语言能力,具备对人类社会和现实世界的通识。整个过程,相当于“先让大模型长到十八岁”。

奥力斯    pvc管道管件胶批发    联系人:王经理    手机:15226765735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

  2025年11月21日,小米正式发布并开源小米具身大模型 “Xiaomi MiMo-Embodied ”。为了将小米的具身基座大模型抚养成人,陈龙团队花了八个月的时间,但趟过的弯路却远不只八次。

  在这个过程中,曾在阿里巴巴达摩院、幻量化及DeepSeek(度求索)任职,如今担任小米集团 AI 实验室 MiMo 大模型团队负责人的罗福莉,给予了他们很多帮助。“罗福莉和他们团队,不仅给我们提供了个很强的基座模型Xiaomi MiMo-VL系列,还与我们共享了套训练框架。”陈龙告诉我们。

  2025年5月30日,小米发布并开源了多模态大模型 “Xiaomi MiMo-VL”。陈龙团队采用了 Xiaomi MiMo-VL 中的 “视觉编码器”,能将分辨率的画面编码成机器能理解的视觉 Token,并直接 “继承了其成熟的视觉-语言对齐机制和强大的理能力” 。这意味着陈龙团队不用从开始训练自己的基座模型,大大缩短了Xiaomi MiMo-Embodied “成年”的时间。

小米具身大模型MiMo-Embodied技术报告节选

  陈龙告诉我们,Xiaomi MiMo-Embodied 的 AI Infra(人工智能基础设施,常简称为 “AI基建”), 很大部分也是复用罗福莉团队的。

  不过,将大模型混入如此多元的数据,对陈龙团队来讲也是次,所以他们搞错了很多次灌输数据的顺序。

  “因为之前也没人探索过,所以我们错了很多次。开始我们就想直接将数据混在起训练,后来发现不太work。”之后,陈龙团队开始思考应该让模型先具有什么能力,再具有什么样的能力,才发现要先灌输通用的多模态与空间数据,再灌输机器人与辅助驾驶数据。——这很像人类先成人再开车的逻辑。

  数据的配比也是关键。与驾驶场景相比,机器人面对的场景多元也复杂,因为存在不同的机器人本体,所以又存在不同种类的机器人数据,这都致机器人的数据稀少。陈龙团队在互联网上尽可能地搜索并加入了大量开源的机器人数据,花了大量的时间做实验来验证机器人、驾驶与多模态数据具体应该怎么配比。

  除了配比,还要将数据相融。“我们标注了很多 CoT(Chain of Thought,思维链)数据。”陈龙告诉我们湛江海绵胶,这相当于将两个大任务分解成很多小任务,告诉大模型要先识别具体的物体,再理解物体的状态,后明白未来该怎么做。

  端到端时代,大模型具备Scaling Law(缩放定律,指大模型能会随着参数、数据和力的提升而提升)。但陈龙告诉我们,到了后期,模型辅助驾驶水平提升的边际应递减得越来越明显。切换成 VLA 架构之后,模型需要加入多的、崭新的三模态(视觉-语言-行动)辅助驾驶数据,才会开始新的轮Scaling Law。

  这意味着陈龙团队需要重新标注驾驶数据,重新思考如何构造不同的驾驶任务。比如,“你需要构造很多种问题,然后让模型描述不同的驾驶片段,生成段文字回答。”陈龙告诉我们,“个问题、段画面、个回答”,这在 VLA 时代只能 “种数据”。

  显然,单靠人力是法完成如此庞大的数据构造工作的。此时,罗福莉团队又发挥了重要的作用。关于驾驶片段数据,陈龙团队可以复用罗福莉团队的AI Infra去搜集,然后设置问题让XLA回答。至于回答是否准确,陈龙团队可以利用Xiaomi MiMo-VL系列大模型来进行监督,再人工 “精筛” 遍。

  陈龙告诉我们,他们和罗福莉团队是“兄弟团队”。

  教会大模型如何 “思考”

  将Xiaomi MiMo-Embodied “抚养成人”并不意味着结束,进入到量产部署阶段,新的问题也随之浮现。

  “模型太大了。”陈龙告诉我们,去年年底,他们已经利用内部数据,做了个尺寸小的、闭源的Xiaomi MiMo-Embodied,但与量产团队起放到车端之后,发现车上的力实在有限。

  VLA架构在去年快速被行业采用的原因,除了能够提升辅助驾驶水平以外,还因为其具备可解释与可追溯。端到端架构只有“输入”与“输出”两端,中间模型通过海量驾驶数据自己学习,PVC管道管件粘结胶但到底是怎么学习的,在实际的辅助驾驶中是怎么决策的,哪怕对于模型提出者本人也是个“黑箱”。

  但VLA架构不同。VLA 自动驾驶模型架构可以在输入视觉信息(Vision)时,并输入语言(Language,地图指令、驾驶规则、自然语言提示、人类驾驶解说等)进行训练。实际理时,VLA可以利用大语言模型(LLM)的语义理解和因果理能力,将“V”与“L”结起来做决策,思考力强。因此后输出驾驶动作(Action)时,也可以将模型内部的思考过程通过人类语言展现出来。

  但利用人类语言,消耗的力和时间实在太多了。如何让 XLA 认知大模型理时迅速且,成为了陈龙思考的主题。

  潜空间理(Latent CoT)应运而生。陈龙在 XLA 认知大模型宣传中介绍:“简单来说湛江海绵胶,系统不再需要把思考过程翻译成语言,而是在潜空间中直接使用维机器语言进行速理”,这样就大幅提升了 XLA 面对复杂驾驶场景时的理速度。如果事后需要,陈龙称小米团队也可以将其思考过程解码,保证其“可解释与可追溯”。

  直接命令 XLA 大模型用自己的机器语言进行思考的确,但 XLA 模型究竟应该怎么思考呢?如果没有人类指,XLA 在理时 “虽然中间多了很多步,但他不知道要用这几步来干什么。所以终肯定还是需要人类指的。”

  陈龙说,在每次开车时,他都“时刻不在留意自己是怎么开车的”。他觉得大概人类在开车时的思考式大致分三种:

  种,运用直觉。因为大量的驾驶经验与对世界的理解已经沉淀在人类的潜意识里,所以在开车时人类可以“脑袋放空”。“这像端到端驾驶的式”。

  二种,运用语言和理能力。比如,人类需要读取标识、航的信息,判断下往哪里开。

  XLA 大模型也样。以车为例:给 XLA 段车辆跟在前慢车后的画面,让 XLA 自己思考,再把自己的机器语言翻译成人类语言思维链,如果能出“前慢车挡路确认安全灯变道车回原车道”的人类语言,说明它正确理解了人类驾驶的思考逻辑。在模型训练阶段,陈龙团队会引入人工质检员和利用Xiaomi MiMo-VL大模型强大的视觉语言能力进行监督。

  三种式,运用想象。还是以车为例,人类会判断自车与前车的距离,变道的距离是否适,这种对空间和未来的想象力,其实就来自自动驾驶的另个范式——“世界模型(World Model)”的能力。

  陈龙告诉我们,世界模型其实有两种:

  · 种是“世界仿真模型(World Simulator Model,WSM)”,能够生成数接近真实世界的虚拟驾驶场景,包括各种罕见的长尾场景(Corner case)。XLA 能在里面进行数次驾驶训练,“再结强化学习,进步对齐人类偏好”。

  · 另种则是“世界动作模型(World Action Model)”,通过喂海量的驾驶数据,模型能想象出未来的行车画面,并通过预判作出驾驶决策。“如果你能想象出未来是什么样的,其实你就知道应该怎么开车了”,陈龙说。

  在训练阶段,陈龙团队会要求其将思考过程解码成其想象的画面,之后让XLA将自己解码出来的画面与真实记录的未来画面进行比对,如果出不同,XLA会自行通过反向传播法优化网络。

  大量训练后,XLA 在驾驶时已经学会了如何正确地思考,因此实际的辅助驾驶理过程中,XLA 就没有要将每次理解码成人类语言或者未来图像了,这样就可以保证车端理的速。

  通过多种训练练就的 XLA 认知大模型,此后进行潜空间思考时,三种式都可以灵活运用。“潜空间思考的优势,就是我不限制你去想什么,也不限制你用什么式思考。我们终的目的是让模型学会驾驶”,陈龙告诉我们。

  先保下限,再谈上限

  2025年,国内热门的辅助驾驶话题就是 VLA 与世界模型的路线之争。理想在国内早采取 VLA 架构,随后小鹏等车企与智驾供应商跟进;而蔚来、华为则强调世界模型,出了各自的 NWM(NIO World Model) 与 WEWA(云端世界引擎、世界行为模型) 案。

  去年8月,华为智能汽车解决案 BU CEO 靳玉志公开表示,不会采取 VLA 这样的 “取巧” 案:“我们看重 WA ,中间省掉 Language 这个环节,通过信息输入直接控车,而不是把视觉信息转成语言,通过语言大模型再来控制车。”

  但在陈龙看来,VLA 没有将视觉信息“转成” 语言, “L” 也不是“中间环节” ,而是增量信息。“ VLA 模型是在理出来 ‘L’ 后,与 ‘V’ 起进行决策(Action)”。

  简而言之,不是 “V → L → A”,而是“( V + L )→ A ”。陈龙团队决定将下篇论文命名为“OneVL”,意为在潜空间思考融了 VLA 与世界模型。

  而在今年,国内智驾路线也开始收敛,“VLA + 世界模型”被行业默认为可以同时采用的案。华为车 BU 负责前瞻研发的2030实验室,也接连发表了DriveVLA-W0、DynVLA等论文。

  “去年大讲 VLA、世界模型的概念多些,但可能终发现,还是需要用户体验好才行”。陈龙说。

  但切换到 XLA 认知大模型架构的小米汽车,眼下还有实际量产的关要过。

  去年国内早切换到 VLA 或者世界模型架构的车企,进行 OTA (远程升)后,用户体验的实际果都发生了波动,也引发了系列的人事震荡。小鹏集团自动驾驶团队负责人由李力耘变为刘先明;理想汽车智驾团队的贾鹏、夏中谱、佳佳相继离职,今年2月,自动驾驶研发总裁郎咸朋离职;蔚来汽车智驾团队的白宇利、马宁宁、黄鑫等多位核心管离职。

  今年,小鹏集团发布“二代VLA”辅助驾驶架构后,其董事长兼CEO何小鹏在两会后的小范围媒体沟通会中向《21汽车 · 见Auto》表示,二代VLA是他们拆掉了辅助驾驶中大量的规则,用自有的力、大的模型重建之后的结果。“如果说原来辅助驾驶的上限是100分,今天的辅助驾驶可以做到万分到数万分的规模,也就是上限特别”。

  但陈龙现在采取的策略是,目前送的个版本,“调教会相对保守些,会利用些规则的限制进行安全兜底”,并持续进行数据迭代,逐渐放开全模型的能力,“到时候用户体验会加丝滑”。

  “辅助驾驶,安全是位的,能不能去掉规则,取决于你能不能做到对的安全。先保下限,再谈上限”,陈龙告诉我们。

相关词条:铁皮保温施工     隔热条设备     锚索    离心玻璃棉    万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定湛江海绵胶,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

下一篇:黔南家具封边胶厂 [小炮APP]竞彩情报:瓦伦西亚4名后球员伤缺
上一篇:陕西海绵胶 韩国4月车市:电动车渗透率破 50,比亚迪强势跻身四!
推荐资讯