任丘市奥力斯涂料厂

湛江海绵胶 21访｜小米陈龙：陪小米智驾长到十八岁

134 2026-05-12 09:40

　　4月1日，《21汽车·见Auto》与小米汽车智能驾驶基座大模型负责人陈龙进行了次面对面访谈。

　　“小时候，我们学说话和认字。随着慢慢成长，我们会经常摸、拿、抓、取些东西。等到我们具备了强大的语言能力和对空间的理解和理能力，差不多十八岁以后，我们再去学习。这样才能将我们习得的切融入驾驶之中，不仅开得快，还开得好。XLA 大模型也样。”在访谈时，陈龙对我们说。

　　3月份，小米刚发布了新代SU7，并宣布辅助驾驶升到 XLA 认知大模型架构。小米集团董事长雷军在新代SU7发布会上称，之所以命名为 “XLA” 而非业内俗称的 “VLA（Vision-Language-Action Model，视觉 - 语言 - 动作）”大模型，是因为模型具备“多模态的认知输入”：小米还融入了声音、机器人数据等模态。

雷军介绍小米 XLA 认知大模型

　　陈龙就是开发 XLA 认知大模型的负责人。童年时，他喜欢美剧《霹雳游侠》里的智能跑车 KITT，这台跑车有鲜明的自我意识，通过自动驾驶多次帮助主角化险为夷。长大后，他曾在英国剑桥大学孵化的自动驾驶公司 Wayve 任职，是将 VLA 模型引入辅助驾驶域的先行者，致力于令大模型的驾驶决策过程加透明。年之前，他加入小米，担任辅助驾驶 VLA 技术负责人。

　　彼时的小米辅助驾驶架构还处于 “端到端（End-to-End，种度学习模型范式，直接从原始输入映射到终输出） + VLM（视觉 - 语言模型，Vision-Language Model） ” 阶段。陈龙将这阶段的核心，提炼为“数据驱动”。端到端拆掉了传统辅助驾驶的“感知”“规划”“决策”模块，通过直接灌入大量驾驶场景数据，直接让模型学习并输出驾驶行为。2024年，国内车企及供应商集体切换到端到端架构，辅助驾驶的整体水平均得到了质的提升。

　　但进入2025年，端到端架构的缺陷开始显现。通俗来说，大模型虽然靠“死记硬背”海量的驾驶数据提升了自己的驾驶水平，但现实世界总会出现多元、复杂的驾驶场景。大模型需要真正理解和认知人类社会和现实世界，才不会在现实世界中遇到新的场景时“傻眼”，像老司机样思考，做到“举反三”。——陈龙将新阶段的核心，提炼为“认知驱动”。

　　先让大模型长到十八岁

　　可是如何才能让大模型学会“认知”？

　　端到端时代湛江海绵胶，大模型被灌入了海量的驾驶数据，但这些数据还不够。陈龙需要造个庞大的具身基座大模型，这个模型中不仅需要驾驶数据，还需要有机器人数据、多模态数据（图片、文字、）。

　　加入机器人数据，是为了让模型如同人类从孩童开始般“与各种物体进行交互”，理解“物体与物体之间的逻辑关系”。而加入海量的多模态数据，是要让模型如同人类从孩童开始般识字，慢慢发展视觉和语言能力，具备对人类社会和现实世界的通识。整个过程，相当于“先让大模型长到十八岁”。

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

　　2025年11月21日，小米正式发布并开源小米具身大模型 “Xiaomi MiMo-Embodied ”。为了将小米的具身基座大模型抚养成人，陈龙团队花了八个月的时间，但趟过的弯路却远不只八次。

　　在这个过程中，曾在阿里巴巴达摩院、幻量化及DeepSeek（度求索）任职，如今担任小米集团 AI 实验室 MiMo 大模型团队负责人的罗福莉，给予了他们很多帮助。“罗福莉和他们团队，不仅给我们提供了个很强的基座模型Xiaomi MiMo-VL系列，还与我们共享了套训练框架。”陈龙告诉我们。

　　2025年5月30日，小米发布并开源了多模态大模型 “Xiaomi MiMo-VL”。陈龙团队采用了 Xiaomi MiMo-VL 中的 “视觉编码器”，能将分辨率的画面编码成机器能理解的视觉 Token，并直接 “继承了其成熟的视觉-语言对齐机制和强大的理能力” 。这意味着陈龙团队不用从开始训练自己的基座模型，大大缩短了Xiaomi MiMo-Embodied “成年”的时间。

小米具身大模型MiMo-Embodied技术报告节选

　　陈龙告诉我们，Xiaomi MiMo-Embodied 的 AI Infra（人工智能基础设施，常简称为 “AI基建”），很大部分也是复用罗福莉团队的。

　　不过，将大模型混入如此多元的数据，对陈龙团队来讲也是次，所以他们搞错了很多次灌输数据的顺序。

　　“因为之前也没人探索过，所以我们错了很多次。开始我们就想直接将数据混在起训练，后来发现不太work。”之后，陈龙团队开始思考应该让模型先具有什么能力，再具有什么样的能力，才发现要先灌输通用的多模态与空间数据，再灌输机器人与辅助驾驶数据。——这很像人类先成人再开车的逻辑。

　　数据的配比也是关键。与驾驶场景相比，机器人面对的场景多元也复杂，因为存在不同的机器人本体，所以又存在不同种类的机器人数据，这都致机器人的数据稀少。陈龙团队在互联网上尽可能地搜索并加入了大量开源的机器人数据，花了大量的时间做实验来验证机器人、驾驶与多模态数据具体应该怎么配比。

　　除了配比，还要将数据相融。“我们标注了很多 CoT（Chain of Thought，思维链）数据。”陈龙告诉我们湛江海绵胶，这相当于将两个大任务分解成很多小任务，告诉大模型要先识别具体的物体，再理解物体的状态，后明白未来该怎么做。

　　端到端时代，大模型具备Scaling Law（缩放定律，指大模型能会随着参数、数据和力的提升而提升）。但陈龙告诉我们，到了后期，模型辅助驾驶水平提升的边际应递减得越来越明显。切换成 VLA 架构之后，模型需要加入多的、崭新的三模态（视觉-语言-行动）辅助驾驶数据，才会开始新的轮Scaling Law。

　　这意味着陈龙团队需要重新标注驾驶数据，重新思考如何构造不同的驾驶任务。比如，“你需要构造很多种问题，然后让模型描述不同的驾驶片段，生成段文字回答。”陈龙告诉我们，“个问题、段画面、个回答”，这在 VLA 时代只能 “种数据”。

　　显然，单靠人力是法完成如此庞大的数据构造工作的。此时，罗福莉团队又发挥了重要的作用。关于驾驶片段数据，陈龙团队可以复用罗福莉团队的AI Infra去搜集，然后设置问题让XLA回答。至于回答是否准确，陈龙团队可以利用Xiaomi MiMo-VL系列大模型来进行监督，再人工 “精筛” 遍。

　　陈龙告诉我们，他们和罗福莉团队是“兄弟团队”。

　　教会大模型如何 “思考”

　　将Xiaomi MiMo-Embodied “抚养成人”并不意味着结束，进入到量产部署阶段，新的问题也随之浮现。

　　“模型太大了。”陈龙告诉我们，去年年底，他们已经利用内部数据，做了个尺寸小的、闭源的Xiaomi MiMo-Embodied，但与量产团队起放到车端之后，发现车上的力实在有限。

　　VLA架构在去年快速被行业采用的原因，除了能够提升辅助驾驶水平以外，还因为其具备可解释与可追溯。端到端架构只有“输入”与“输出”两端，中间模型通过海量驾驶数据自己学习，PVC管道管件粘结胶但到底是怎么学习的，在实际的辅助驾驶中是怎么决策的，哪怕对于模型提出者本人也是个“黑箱”。

　　但VLA架构不同。VLA 自动驾驶模型架构可以在输入视觉信息（Vision）时，并输入语言（Language，地图指令、驾驶规则、自然语言提示、人类驾驶解说等）进行训练。实际理时，VLA可以利用大语言模型（LLM）的语义理解和因果理能力，将“V”与“L”结起来做决策，思考力强。因此后输出驾驶动作（Action）时，也可以将模型内部的思考过程通过人类语言展现出来。

　　但利用人类语言，消耗的力和时间实在太多了。如何让 XLA 认知大模型理时迅速且，成为了陈龙思考的主题。

　　潜空间理（Latent CoT）应运而生。陈龙在 XLA 认知大模型宣传中介绍：“简单来说湛江海绵胶，系统不再需要把思考过程翻译成语言，而是在潜空间中直接使用维机器语言进行速理”，这样就大幅提升了 XLA 面对复杂驾驶场景时的理速度。如果事后需要，陈龙称小米团队也可以将其思考过程解码，保证其“可解释与可追溯”。

　　直接命令 XLA 大模型用自己的机器语言进行思考的确，但 XLA 模型究竟应该怎么思考呢？如果没有人类指，XLA 在理时 “虽然中间多了很多步，但他不知道要用这几步来干什么。所以终肯定还是需要人类指的。”

　　陈龙说，在每次开车时，他都“时刻不在留意自己是怎么开车的”。他觉得大概人类在开车时的思考式大致分三种：

　　种，运用直觉。因为大量的驾驶经验与对世界的理解已经沉淀在人类的潜意识里，所以在开车时人类可以“脑袋放空”。“这像端到端驾驶的式”。

　　二种，运用语言和理能力。比如，人类需要读取标识、航的信息，判断下往哪里开。

　　XLA 大模型也样。以车为例：给 XLA 段车辆跟在前慢车后的画面，让 XLA 自己思考，再把自己的机器语言翻译成人类语言思维链，如果能出“前慢车挡路确认安全灯变道车回原车道”的人类语言，说明它正确理解了人类驾驶的思考逻辑。在模型训练阶段，陈龙团队会引入人工质检员和利用Xiaomi MiMo-VL大模型强大的视觉语言能力进行监督。

　　三种式，运用想象。还是以车为例，人类会判断自车与前车的距离，变道的距离是否适，这种对空间和未来的想象力，其实就来自自动驾驶的另个范式——“世界模型（World Model）”的能力。

　　陈龙告诉我们，世界模型其实有两种：

　　· 种是“世界仿真模型（World Simulator Model，WSM）”，能够生成数接近真实世界的虚拟驾驶场景，包括各种罕见的长尾场景（Corner case）。XLA 能在里面进行数次驾驶训练，“再结强化学习，进步对齐人类偏好”。

　　· 另种则是“世界动作模型（World Action Model）”，通过喂海量的驾驶数据，模型能想象出未来的行车画面，并通过预判作出驾驶决策。“如果你能想象出未来是什么样的，其实你就知道应该怎么开车了”，陈龙说。

　　在训练阶段，陈龙团队会要求其将思考过程解码成其想象的画面，之后让XLA将自己解码出来的画面与真实记录的未来画面进行比对，如果出不同，XLA会自行通过反向传播法优化网络。

　　大量训练后，XLA 在驾驶时已经学会了如何正确地思考，因此实际的辅助驾驶理过程中，XLA 就没有要将每次理解码成人类语言或者未来图像了，这样就可以保证车端理的速。

　　通过多种训练练就的 XLA 认知大模型，此后进行潜空间思考时，三种式都可以灵活运用。“潜空间思考的优势，就是我不限制你去想什么，也不限制你用什么式思考。我们终的目的是让模型学会驾驶”，陈龙告诉我们。

　　先保下限，再谈上限

　　2025年，国内热门的辅助驾驶话题就是 VLA 与世界模型的路线之争。理想在国内早采取 VLA 架构，随后小鹏等车企与智驾供应商跟进；而蔚来、华为则强调世界模型，出了各自的 NWM（NIO World Model）与 WEWA（云端世界引擎、世界行为模型) 案。

　　去年8月，华为智能汽车解决案 BU CEO 靳玉志公开表示，不会采取 VLA 这样的 “取巧” 案：“我们看重 WA ，中间省掉 Language 这个环节，通过信息输入直接控车，而不是把视觉信息转成语言，通过语言大模型再来控制车。”

　　但在陈龙看来，VLA 没有将视觉信息“转成” 语言， “L” 也不是“中间环节” ，而是增量信息。“ VLA 模型是在理出来 ‘L’ 后，与 ‘V’ 起进行决策（Action）”。

　　简而言之，不是 “V → L → A”，而是“（ V + L ）→ A ”。陈龙团队决定将下篇论文命名为“OneVL”，意为在潜空间思考融了 VLA 与世界模型。

　　而在今年，国内智驾路线也开始收敛，“VLA + 世界模型”被行业默认为可以同时采用的案。华为车 BU 负责前瞻研发的2030实验室，也接连发表了DriveVLA-W0、DynVLA等论文。

　　“去年大讲 VLA、世界模型的概念多些，但可能终发现，还是需要用户体验好才行”。陈龙说。

　　但切换到 XLA 认知大模型架构的小米汽车，眼下还有实际量产的关要过。

　　去年国内早切换到 VLA 或者世界模型架构的车企，进行 OTA （远程升）后，用户体验的实际果都发生了波动，也引发了系列的人事震荡。小鹏集团自动驾驶团队负责人由李力耘变为刘先明；理想汽车智驾团队的贾鹏、夏中谱、佳佳相继离职，今年2月，自动驾驶研发总裁郎咸朋离职；蔚来汽车智驾团队的白宇利、马宁宁、黄鑫等多位核心管离职。

　　今年，小鹏集团发布“二代VLA”辅助驾驶架构后，其董事长兼CEO何小鹏在两会后的小范围媒体沟通会中向《21汽车 · 见Auto》表示，二代VLA是他们拆掉了辅助驾驶中大量的规则，用自有的力、大的模型重建之后的结果。“如果说原来辅助驾驶的上限是100分，今天的辅助驾驶可以做到万分到数万分的规模，也就是上限特别”。

　　但陈龙现在采取的策略是，目前送的个版本，“调教会相对保守些，会利用些规则的限制进行安全兜底”，并持续进行数据迭代，逐渐放开全模型的能力，“到时候用户体验会加丝滑”。

　　“辅助驾驶，安全是位的，能不能去掉规则，取决于你能不能做到对的安全。先保下限，再谈上限”，陈龙告诉我们。

相关词条:铁皮保温施工隔热条设备锚索离心玻璃棉万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定湛江海绵胶，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

小米智驾湛江海绵胶十八岁陈龙

推荐资讯

湛江海绵胶 21访｜小米陈龙：陪小米智驾长到十八岁

肇庆橡塑胶剑《货币资金分析精要》获评2025十大受欢迎金融

金昌pvc排水管专用胶水京东市价值客群带动白酒消费：季度茅

文昌防火门专用胶厂家美心牛奶吐司疑吃出蛀牙，美心回应：全力

湛江海绵胶 21访｜小米陈龙：陪小米智驾长到十八岁

肇庆橡塑胶 剑《货币资金分析精要》获评2025十大受欢迎金融

金昌pvc排水管专用胶水 京东市价值客群带动白酒消费：季度茅

文昌防火门专用胶厂家 美心牛奶吐司疑吃出蛀牙，美心回应：全力

肇庆橡塑胶剑《货币资金分析精要》获评2025十大受欢迎金融

金昌pvc排水管专用胶水京东市价值客群带动白酒消费：季度茅

文昌防火门专用胶厂家美心牛奶吐司疑吃出蛀牙，美心回应：全力