具身觉醒:AI 如何从感知迈向行动
大家好,今天咱们来聊聊《云栖战略参考》这本杂志。它是由阿里云和钛媒体联手打造的,专门收集各行各业先锋人物的技术探索和实战经验,希望和那些同样在思考数智化问题的“数智先行者”一起交流碰撞,给大家带来一些启发。 具身智能现在可是AI领域的大热门,大家都认为它是AI革命的下一站关键。当AI技术从数字世界走向物理世界,硬件就成了智能体和现实环境互动的重要桥梁。这个趋势正沿着三条主要赛道快速推进,每条赛道的技术复杂度和成熟度都不太一样。 智能硬件比如智能手机、PC和AI眼镜,正从简单的工具升级成懂你的场景伙伴。它们依靠成熟的端云协同架构、实时数据处理和轻量级模型部署,能实现多模态智能交互,提供更多个性化服务,已经进入规模化应用阶段。智能驾驶系统在端到端大模型的推动下,开始具备局部自主决策能力,甚至能应对一些预设规则之外的突发情况,但模型的泛化性和安全性还需要不断优化,对高弹性算力和多源数据融合也提出了更高要求。机器人技术门槛最高,算力上需要云边端深度协同,数据上要解决多模态真实数据的采集和处理问题,模型上得兼顾复杂推理和运动控制,目前的关键是从实验室原型走向产业落地。 虽然这三条赛道的发展节奏不同,业界在具体落地时还有分歧,但大家都认同一个方向:AI未来不会只待在屏幕里,而是能在真实世界中完成“感知-决策-行动”的完整循环,进化成能自主行动的智能体。支撑这一切的,是一套由算力、数据和模型深度融合的下一代全栈AI技术体系。 作为全栈人工智能服务商,阿里云正在为这场革命打造统一的技术支柱。它的全栈AI服务不仅提供强大算力,还整合了数据平台和持续升级的基础模型能力,从底层算力调度到上层智能应用全方位支持。在2025云栖大会的分论坛上,来自AI硬件、汽车和机器人领域的实践分享,共同描绘了具身智能的未来图景:AI硬件打破交互界限、智能驾驶重塑出行空间、机器人赋能各行各业,一场具身智能的大潮已经拉开序幕。AI 硬件:从工具到智能伙伴的蜕变
在具身智能的框架下,最贴近用户的智能硬件正在经历一场身份转变。算力、模型和开发平台的一体化智能底座,为这些新设备提供了无限可能。这意味着智能硬件不再是孤立的 gadget,而会很快融入一个能自我进化、跨端协作的“超级生态系统”。 2025年,AI硬件无疑是厂商和资本聚焦的主战场。洛图科技之前预测,中国AI硬件市场规模今年将首次突破万亿元,未来五年还会保持高速增长。和之前的AI硬件热潮相比,这次的趋势很明确:终端设备从被动执行命令转向主动提供服务。 这场变革的核心是设备变得更懂用户。荣耀MagicOS AI首席战略官王皑举了个例子:“昨晚我在杭州看书,觉得灯光太暗,只要对手机说‘帮我处理一下’,它就能自动调到护眼模式,全程不用我动手。这种‘一语解千愁,万事找YOYO’的体验,说明硬件正从需要学习的复杂工具,变成理解用户需求的智能伙伴。” 在教育硬件领域,这种变化尤其明显。AI学习机之所以能在大模型时代火起来,主要是因为它解决了传统学习机无法满足的个性化需求。视源股份消费者BG总裁邱澈分享了一个案例:“低龄孩子的学习机以前很难做,因为每个孩子成长路径不同。现在通过大模型,我们可以根据孩子的具体情况动态调整学习计划。”这种个性化能力让硬件从标准化工具变成了懂用户的学习助手。 智能手机作为AI To C的第一入口,正在从功能堆砌转向体验重构。全球前十的手机厂商中,包括传音、OPPO、vivo、荣耀等9家都和通义大模型深度合作,这绝非偶然。 随着AI技术和Agent的发展,手机会进化成更懂用户的智能体手机。除了硬件和生态,厂商还在推动操作系统智能化,让系统能感知用户意图和环境,按需调用资源和服务。 在众多硬件形态中,AI眼镜是最受关注的新品类之一。它试图重新定义“下一代人机交互入口”。雷鸟创新等品牌通过差异化策略抢占市场,深度使用阿里通义多模态大模型,视觉理解和问答准确率高达98%,响应时间仅1.3秒。这种技术突破让AI眼镜从概念走向实用,在导航、翻译、提醒等场景中证明了自己的价值。 支撑这些智能终端进化的,是全栈AI云服务提供的强大生态。通义大模型和阿里云服务的协同优势,让智能助理能更精准理解意图、流畅交互、可靠执行任务。 36氪研究院院长邹萍指出,通过云端和端侧大模型的结合,AI可以根据场景灵活分配算力,简单任务在端侧处理,复杂任务交给云端。这种架构既保证了速度,又兼顾了能力,为智能终端升级提供了坚实底座。 AI硬件从工具向伙伴跃迁的关键词是生态。现在,厂商的竞争焦点是构建以硬件为入口的生态体系,整合内容、数据和服务,拓展场景边界和用户黏性。不只是教育硬件,很多领域都在布局AI生态,这从底层改变了设备的价值逻辑——从单一功能走向系统协同,从工具属性转向场景服务。 当然,AI硬件发展还面临挑战。在硬件堆叠、续航功耗、成本控制等方面,行业仍在寻找平衡点。论坛上提到了“不可能三角”的困境——功能、功耗和成本难以兼顾。大模型的小型化和隐私保护是需要持续突破的方向。 在阿里云的推动下,智能硬件的技术边界逐渐清晰:不追求“万能”,而是在具体场景中深化创新。先让AI变得实用不可或缺,再让智能体与云端协同进化,无声融入生活,成为每个人的全能助手。 最好的技术是隐形的,最好的体验自然浮现。 关于未来入口的形态,会上提出了“软入口”概念:AI入口可能没有固定形态,而是像水一样渗透到吃穿住行中。通用硬件和专用硬件将协同发展,共同构建未来智能生态。智能驾驶:从规则驱动到智能涌现
当具身智能理念进入出行领域,智能驾驶的技术范式发生了根本变化。传统的规则编码方式在面对现实中的复杂场景时常常力不从心。现在,以视觉-语言-动作大模型为代表的数据驱动路径,让智能驾驶系统像人类一样具备举一反三的能力,从精密机器向有常识的智能体进化。 在2025云栖大会汽车行业峰会上,广汽和理想汽车的专家都指出,传统智能驾驶系统在已知场景中表现稳定,但遇到陌生路况就容易卡壳。这好比一个靠刷题的学生,见过的问题都会,新题就傻眼。而现实道路上的新题层出不穷,比如施工路段、潮汐车道等非标准场景。 如何让智能驾驶系统真正具备应变能力?答案是大模型技术,特别是VLA模型。VLA模型通过预训练注入常识和推理能力,使其在面对未训练场景时也能合理判断。 一个真实案例显示:搭载VLA系统的车辆在连续绕过多个未预设路障时,展现了接近人类驾驶员的连贯决策——这不是靠预设规则,而是模型能力的自然涌现。 这一变化标志着智能驾驶研发从“人工写规则”进入“系统自进化”新阶段。阿里云专家指出,VLA结合强化学习的闭环训练体系,正成为下一代智能驾驶的技术基座。在仿真环境中,系统可以光速迭代,无限试错,突破实车路测的数据瓶颈。有预测认为,未来一年内,VLA技术将带来智能驾驶体验的十倍提升。 不过,VLA技术中关于“语言”的必要性还有争议。理想CTO谢炎在圆桌对话中分享,语言是人类泛化能力的基础,理想采用VLA路线有两个原因:技术上语言具备长链路推理能力,非技术上是更容易实现价值观对齐。他认为极端场景需要类似人类的推理能力才能解决。 谢炎提到,语言模型越大、思考链路越长,消耗的tokens越多,效果越好,因此车端算力需求可能指数级增长。 事实上,无论是车端推理还是云端训练,对算力的需求都在飙升。能构建万卡级算力集群的企业全球寥寥无几,具备基础大模型研发能力的公司更是凤毛麟角。算力规模成了参与高阶智能驾驶竞争的入场券。数据显示,美国头部企业已投入数万张GPU卡用于训练,国内车企也在积极跟进。 同时,AI也在重构汽车产业成本结构。高固定成本、低边际成本的研发模式,让软件和AI在未来整车成本中的占比持续上升。有分析指出,在部分廉价车型中,软件和AI成本可能占整车成本的一半。这一变化影响产品定价,也重塑市场竞争逻辑。 值得注意的是,智能驾驶的能力涌现不完全依赖车端算力堆砌。端云协同已成主流。车端算力从百TOPS向千TOPS迈进,芯片架构需适配大模型推理;云端训练和仿真算力需求不断扩大,国产化替代和能效优化成为关键。阿里云发布的“全模态数据管理+多引擎一体化”平台,支持从数据采集到模型训练的全流程闭环。 在这场变革中,车企的角色也在转变。他们不再只是硬件制造商,更是软件能力构建者和数据驱动运营者。 例如,中国一汽从大模型中得到启发,把所有数据转换为Token,让不同模态内容映射到同一Token空间,使企业管理模型更聪明。 未来,随着L4/L5级智能驾驶实现,汽车将彻底从移动工具转变为智能空间。用户可在车内办公、娱乐、社交,汽车成为家、办公室的延伸。支撑这一愿景的,是智能驾驶系统从功能堆砌到能力涌现的持续进化。机器人:从虚拟到实体的关键一步
机器人是具身智能理念最纯粹的载体,也是AI融入物理世界的终极挑战。它要求智能体不仅会思考,还能动手,在不确定现实中完成复杂任务。当前,机器人领域正处于技术路径争论和早期商业化探索的关键期,核心问题是如何弥合数字智能与物理实体之间的差距。 阿里云智能集团公共云事业部副总裁高飞在云栖大会上指出,具身智能已成为大语言模型之后最受关注的赛道,是AI从数字世界进入物理世界的必经之路。他强调,这不仅是算法升级,更是算法、模型、运动控制、制造等多方面能力的融合。 这条路并不平坦。高飞将挑战归纳为四类:如何实现从单一任务到通用智能的涌现;如何界定软硬结合边界;如何让机器人理解长程复杂任务;以及如何实现多模态高效融合。这些问题勾勒出机器人从虚拟走向实体必须克服的难题。 在技术路径上,行业出现分化。最激烈的争论之一是机器人大脑的构建方式。自变量机器人CEO王潜主张端到端统一模型,即用一个强大模型处理感知、推理和控制。他认为分层架构在复杂操作中容易误差累积,而统一模型能更好理解物理规律。 另一边,清华大学助理教授赵行倾向于分层模型架构。他考虑现实部署约束,端侧实时跑大模型受芯片限制。分层设计让机器人更容易落地,且符合生物进化规律。针对层间互通问题,赵行表示可通过强化学习等技术解决。 同样,在数据来源上也有分歧。面对数据稀缺,形成“真机派”和“仿真合成派”两大阵营。真机派坚持通过遥操或互联网获取真实数据,基于VLA做模仿学习;仿真派相信合成数据可行性,在仿真环境中生成数据训练模型,大量使用强化学习。 仿真派强调仿真环境的重要性:“没有仿真,几十年内都无法造出实用机器人。”NVIDIA副总裁Deepu Talla说道。仿真数据低成本、高效率、安全,是规模化训练的基石。 但仿真数据有局限,比如灵巧操作任务中,仿真与真实数据效率差距大。物理接触的复杂性如摩擦、形变难以精准建模。银河通用选择先通过大规模仿真数据预训练通用基座模型,再用少量真实数据后训练,提高泛化性能,降低落地成本。 千寻智能解浚源观点更尖锐,认为只有真机数据才能训练出领先模型。他挑战“真机数据昂贵”的共识,指出在国内供应链支持下,单个机器人成本可压到10万以下,将采集数据机器人规模扩展到上千台“绝非不可想象”。 尽管技术路径分歧,机器人技术商业化落地已悄然加速。在智慧零售场景,机器人能实现接单、拣货、打包全流程自动化。制造业中,机器人能在复杂环境中巡检、分拣、装配。 当讨论从“如何造机器人”切换到“如何量产千万台”时,云厂商的角色凸显。高飞建议:“具身智能公司从第一天就要规划好云架构和AI基础设施。”他洞察到,一旦数据量指数增长,科研背景的机器人团队将面临工程化挑战。 阿里云王旭文提到,阿里云以数据为中心,有强大基础设施和经验应对具身智能数据浪潮。 回顾机器人的实体化跨越,这是一幅充满非共识但充满希望的图景。类似四五年前的智能驾驶,在特斯拉FSD V12推出后技术路线收敛。机器人领域也会迎来自己的“FSD V12时刻”。 未来的竞争不再是单一产品竞争,而是“终端-实体-空间”三位一体生态的竞争。 AI正以硬件、汽车和机器人等形态,推动智能从虚拟走向现实、从被动走向主动、从孤立走向协同。AI硬件从工具进化为场景伙伴,智能驾驶通过大模型实现能力涌现,机器人突破物理世界最后一公里。这三条路径共同勾勒出未来智能生态图景。 在这一进程中,技术突破、数据闭环与场景落地是关键驱动力。谁能率先构建算法、硬件与生态深度融合的体系,谁就将在AI赋能的实体化浪潮中定义下一个智能时代的基本形态。 本文摘自《云栖战略参考》总第20期 扫码查看最新杂志 ↓↓相关问答






