过去两年,大模型像一列高速列车,在数字世界的轨道上狂飙。它学会了所有人类写过的文字、画过的图像、编过的代码,甚至能像老朋友一样陪你聊天。每个月的发布会都在刷新能力的边界,每一轮融资都在刷新数字的天花板。乘客们开始兴奋地发问:这列火车,究竟要开往哪里?
答案正在变得清晰。大模型最激动人心的下一站,不在云端,不在屏幕里,而在你推开房门、走进厨房、伸手拿起一个杯子时那个充满重力与触感的物理世界。大模型正在从“语言者”进化为“行动者”,从纯粹的信息处理器,变成能够主动干预现实、操纵物体、与人协作的具身智能体。
这不再是一次模型的升级,而是一次轨道的换轨——从虚拟世界的文字铁道,换到物理世界的复杂路网。
我们必须先厘清一个问题:大模型如此强大,为什么它自己无法迈出走向物理世界的那一步?
答案就在于它的“天生残疾”。大模型是在文本、图像这类“二手经验”上训练的。它可以读完维基百科上所有关于“苹果”的词条,知道苹果的品种、产地、营养成分、历史典故,但它从未亲手拿起过一个苹果。
这是两种完全不同的知识。一种是描述性知识(knowing that)——苹果是甜的,表皮光滑,握在手里有分量。另一种是程序性知识(knowing how)——如何用恰到好处的力度抓取苹果而不让它滑落或捏伤。大模型擅长前者,却在后者上几乎为零。
更致命的是,大模型没有持续感知环境的能力。你问一个聊天模型“现在几点了”,它只能猜或者回答“我不知道”。它没有时钟,没有眼睛,没有身体。而在物理世界中,智能体必须实时感知:杯子是不是被挪动了?地面的摩擦系数变了没有?光照条件是否影响了视觉?这些都不是静态数据集能提供的。
所以,大模型要驶向物理世界,不是把一个ChatGPT装进机器人里面那么简单。它需要进行一次脱胎换骨的进化:从离线的符号处理器,转变为在线的、具身的、与环境实时交互的智能体。
这一站的核心概念,正在从“大语言模型”(Large Language Model, LLM)延伸为“大动作模型”(Large Action Model, LAM)或者更综合的“视觉-语言-动作模型”(VLA)。
语言模型做了什么? 它学会了词汇之间的关系、语法结构、推理链条。它的输出空间是所有可能的词元(token)。
动作模型要做什么? 它要学会动作与状态之间的关系、物理因果、时机与力度。它的输出空间是连续的动作空间:关节角度、施加的扭矩、移动的速度、抓取的力度。
这种转变带来的技术挑战是指数级增加的。语言模型可以选择“下一个词”,每个选择不改变世界的状态。动作模型选择的每一个动作,都可能产生不可逆的物理后果——杯子碎了,水洒了,人碰伤了。因此,动作模型的训练必须引入物理世界模型:它需要在内部模拟“如果我这样做,世界会如何变化”。
目前的突破方向是在仿真中预训练,在现实中微调。大模型先在大规模仿真环境中“生活”数百万小时,尝试抓取、推动、组装各种虚拟物体,积累物理经验。然后,这些经验被压缩进一个神经网络,形成“物理直觉”。当部署到真实机器人身上时,只需要相对较少的真实交互就可以适应现实的噪声和不确定性。
一个大模型驱动的具身智能体,必须同时拥有以下几项能力,缺一不可。
多模态对齐的感知 它要能听懂“把桌上那个蓝色的杯子递给我”,同时用摄像头找到蓝色杯子,用手靠近时通过触觉确认“杯壁光滑、温度常温、重量适中”。视觉、语言、触觉、力觉、本体感觉(关节位置)需要在统一的时序框架中对齐。这不是后期拼接,而是从一开始就以多模态方式训练。
世界模型与想象能力 一个优秀的具身智能体不是简单的“刺激-反应”机器。它应该能在行动前进行“心理模拟”:把杯子向左推5厘米会碰到旁边的水壶吗?以这个角度抓取会不会滑脱?人类在动手之前已经在脑中快速演练了多种可能,具身智能体也需要类似的能力。世界模型让它可以预测自己的动作对环境的未来影响,从而实现提前规划和避险。
分层决策结构 高层用大语言模型理解任务、分解目标、处理异常。中层用扩散策略或动作模型生成平滑轨迹。低层用经典控制器保证实时稳定。三层运行的时标分别是秒级、百毫秒级、毫秒级。单纯端到端的“感知-动作”映射,要么太慢,要么不可解释,难以保证安全。
持续学习与适应 物理世界是动态变化的。今天的厨房和昨天相比,桌上的物品位置变了,地面可能洒了水,光线角度不同了。具身智能体不能依赖固定的策略,而要学会在部署后持续更新自己的模型——但必须在一个“安全护栏”内进行,避免灾难性遗忘或危险试探。
列车已经启动。2025-2026年,我们看到了第一批“大模型驱动的具身智能体”从实验室进入半封闭场景。
工业与物流 在汽车工厂的总装线上,人形机器人使用大模型来理解自然语言指令:“给这个螺栓打35牛米的扭矩,但注意旁边那根线束,别压到。”大模型将语言转化为动作参数,同时利用视觉检测线束位置,实时调整轨迹。这些场景中环境相对可控,是大模型“动手能力”的理想训练场。
家庭服务 这是更难的挑战,也是终极目标。在家庭环境中,物体的位置、形态、状态千变万化。大模型驱动的助手必须学会“从菜谱到菜肴”的全流程:理解菜谱文本→识别冰箱里的食材→判断成熟度和新鲜度→规划烹饪步骤→动态调整火候和翻炒力度。目前最先进的系统已经能够在演示环境下完成简单的煎蛋或冲咖啡,但对杂乱和意外情况(猫跳上操作台、孩子突然跑过来)的处理仍然脆弱。
医疗与照护 手术机器人、康复机器人、护理机器人正逐步引入大模型的推理能力。比如,一个辅助起身的机器人可以根据老人的坐姿、肌力信号和语音请求“我感觉有点晕”,实时调整支撑速度和高度。大模型在这里的作用不仅是动作生成,还包括对多模态健康数据的理解和风险评估。
但深渊也同样真切。当前的大模型具身智能体存在几个系统性短板:
推理速度:一次VLA推理可能需要50-200毫秒,对于快速动态环境(接住抛来的物体)还不够。
数据饥渴:训练一个通用动作模型需要海量的物理交互数据,真实世界采集昂贵,仿真与现实的鸿沟依然存在。
安全认证:没有任何一个监管机构敢于批准一个“会持续学习、行为不可完全预测”的机器人进入家庭或医院。可解释性与黑箱大模型之间存在根本矛盾。
能量与算力瓶颈:将几百TOPS的算力塞进一个移动机器人的头部,同时保持2-3小时的续航,是当前工程能力的极限。
大模型驶向物理世界,目前主要有三种技术路线在竞合。
路线一:大模型作为“大脑”,传统控制作为“小脑” 这是最务实的短期方案。大模型负责理解任务、高层规划、处理语义信息;传统运动规划和控制算法负责底层的轨迹跟踪和稳定。优点是可解释、安全可控;缺点是语言到动作的接口粗糙,无法处理需要精细实时协调的任务。
路线二:端到端VLA大模型 一个神经网络接收原始传感器信号,直接输出关节控制信号。这是最“纯粹”的路线,理论上可以学到最优的感知-动作映射,且能处理传统方法无法建模的复杂接触场景。缺点是数据需求巨大,可解释性差,安全验证困难。
路线三:模块化大模型组合 将感知、预测、规划、控制分别用不同的预训练大模型或专用模型实现,中间用标准化接口连接。每个模块可以单独训练和替换,整体系统更容易调试和认证。缺点是模块之间的接口可能丢失信息,整体性能受限于最薄弱的模块。
2026年的主流共识是:路线三(模块化组合)是目前工程部署的首选,路线二(端到端)是前沿科研的方向,两者之间通过知识蒸馏、联合微调等方式逐渐融合。
这列大模型列车的终点站,被称为“通用具身智能体”(General Embodied Agent)。它不是一个只会扫地、一个只会焊接的专用机器人,而是一个可以像人一样,在一个从未进过的房间里,看到一个从未见过的工具,听完一句自然语言指令,就能自己摸索着完成任务的智能体。
这个能力在今天依然遥远。但关键的技术组件正在汇聚:足够通用的VLA基础模型、足够真实的仿真训练场、足够丰富的遥操作数据集、足够安全可靠的人形硬件平台。它们彼此加速,形成了具身智能领域的“飞轮效应”。
也许几年后,当你对一个机器人说出“帮我收拾一下客厅,然后把垃圾扔掉,哦对了,那盆植物今天该浇水了”,它不再回答“很抱歉,作为一个语言模型我无法执行物理动作”,而是转身、走向茶几、伸出手——那个瞬间,大模型才算真正到达了它的下一站。
从一个只会说话的“大脑”,到一个有手有脚、能感知能行动、能主动介入物理世界的具身智能体——这不仅是技术的进化,更是智能形态的一次跃迁。列车的轨道已经铺好,下一站,现实。