(原标题:中国的“马斯克” 李想分享VLA训练细节)
2025年5月8日,距离“AI Talk”第一季播出已有130天,面对镜头,理想汽车创始人李想坦言:“人工智能发展得这么快,但我每天的工作时间并没有减少。”这一句话,道出了他对AI技术落地路径的冷静思考,也预示着理想汽车在智能化道路上的阶段跃迁。
图片来源于网络,如有侵权,请联系删除
在这场持续数小时的访谈中,李想系统性地阐述了他对AI工具分级的理解――从信息工具、辅助工具,到生产工具。而在理想的语境中,生产工具意味着AI真正进入价值创造的核心。这场技术演化的关键,正在从模型的堆叠走向具象能力的整合与释放。
图片来源于网络,如有侵权,请联系删除
过去四个月,中国本土大模型迎来了突飞猛进的发展。李想在谈话中频频提及DeepSeek――这一国产大模型体系,在技术架构、推理能力和工程效率上的表现,让理想汽车决策层重新评估了其VLA(视觉-语言-行动)战略的实施路径。
“DeepSeek给了我们一个巨大的推动力。”李想坦承,原本计划在年底完成的基座模型,因DeepSeek的开源提前了九个月完成基础设施建设。
也正是出于这种“被帮助之后的反馈机制”,理想汽车选择开源自研四年的星环OS整车操作系统。“我们受到了那么大的帮助,应该给社会做一些贡献。”李想说。
他提到,在过去的春节期间,理想团队围绕DeepSeek展开了全面研究,从模型的MoE(混合专家)结构、训练效率、到部署难度,进行了详尽评估。“这不是简单的‘借用’,而是站在巨人的肩膀上再进一层。”他说。
从规则到端到端,再到VLA
李想认为,人工智能走向生产力的关键在于Agent能力的释放,即AI不再只是辅助人类思考和判断,而是能够独立完成专业工作,承担“替代性”的角色。理想汽车当前的VLA战略,正是对这一目标的路径设计。
VLA,即“视觉-语言-行动”模型,是理想汽车提出的辅助驾驶大模型方案。李想将VLA的发展划分为三个阶段:
第一阶段是以规则算法为主的“昆虫智能”,高度依赖地图和预设规则,类似蚂蚁在路径上的机械执行。
第二阶段是当前正在推进的端到端模型,通过大数据学习形成对行为的模仿,类似“哺乳动物式”的感知和反应,虽不完全理解物理世界,但能完成一定泛化任务。
第三阶段,即VLA阶段,则是李想眼中“类人智能”的起点。它不仅能够看懂导航界面、识别3D场景,还能进行语义推理(Chain of Thought),具备主动判断和行动的能力。“这是我们的‘司机大模型’。”李想说。
为了达成这一目标,理想汽车正在训练一个32B规模(即320亿参数规模)的VL(视觉-语言)基座模型。李想详细介绍了训练的三个关键部分:
首先,是视觉方面的token和语料。理想在模型中纳入了大量3D视觉数据,即来自物理世界的三维信息,同时还引入了高清2D图像数据,分辨率相比开源多模态模型提升了10倍,以解决当前2D视觉模态清晰度不足、识别距离有限的问题。
其次,是语言部分的输入。模型训练加入了大量与交通、驾驶行为相关的语言语料,以强化其在实际场景中的语义理解能力。
第三个关键点,是视觉与语言的联合语料(VL语料)。李想强调,这一部分极易被忽视,但对VLA至关重要。联合语料指的是图像信息与语言语义同时存在于一个数据单元中,比如导航地图与车辆对其的语义理解共同输入模型,帮助模型建立起从视觉到语言再到行动之间的深度联结能力。
“过去的VLM(视觉-语言模型)大多只是能看图说话,但理解不了世界。我们要的是一个能看懂真实世界、理解物理规则、具备行动意图的大模型。”李想指出。
在谈及基座模型的研发投入时,李想表示:“我们今年的训练卡采购量,是原定计划的三倍。”这一扩张级别,反映出理想汽车在自研基础模型上的战略押注。
尽管DeepSeek的开源带来了加速效应,李想并未对自研路径抱有任何侥幸心理。他反复强调:“没有任何捷径。如果规则算法做不好,根本不知道怎么走端到端。端到端不做到极致,就没法训练好VLA。”
这也解释了为什么理想汽车仍然坚持构建自己的基座模型,而不是完全依赖第三方平台。“我们的任务不仅仅是对话生成。我们要的是对多模态世界的理解,是真正为汽车场景服务的智能体。”李想说。
谈及行业格局,李想将DeepSeek比作“Linux时刻”,而理想追逐的,则是“安卓时刻”。
“语言模型只是底座,真正的爆发在于将其部署于特定领域,释放出完整的应用能力。”他表示,在交通领域,理想希望借由VLA构建出具备认知、推理和行动能力的类人驾驶模型。
这一愿景背后,是理想汽车从底层操作系统到多模态大模型全面自研的技术链闭环。而在产业层面,这也意味着一场从传统规则驱动到智能体驱动的范式跃迁正在发生。
李想认为,辅助驾驶行业当前正处于“黎明前的黑暗”。争议与困境并存,但这正是新范式到来的前夜。“我最愿意解决的就是别人解决不了的问题。”他说。
在理想汽车的路径图中,AI不再是一个效率工具,而是一个系统性、可扩展、可以承担主角的“生产工具”。在这个定义之下,VLA不仅是技术跃迁的起点,更是理想汽车试图重塑人车关系、重塑交通智能产业的路径尝试。
推荐阅读:
GDP七年增长1.35倍,“高速度”如何向“高质量”跃迁?深圳坪山打算这样干
2024中国石油石化企业信息技术交流大会暨油气产业数字化转型高峰论坛将于4月在京召开
专题推荐: