WAIC观察:当机器人走向台前,大模型在幕后竞速落地场景,机器人创意外观
7月26日-28日,上海世博展览馆,正成为人形机器人盛大的秀场。
在宇树科技的展台,两台人形机器人正在擂台上演“格斗赛”;不远处的数字华夏舞台上,仿生机器人“夏澜”正与真人Coser共舞;而在智平方的展台,通用智能机器人“爱宝”则在熟练地为观众制作冰淇淋,还能随时切换角色,敲上一段激昂的架子鼓。
与此同时,在大模型论坛上,商汤科技董事长兼CEO徐立展示的人形机器人,正对着PPT侃侃而谈,风趣幽默地讲解着“长安的荔枝”,甚至还能随时停下与观众互动问答。
这些能与人自然交互、完成复杂任务的“新物种”,吸引着大量观众和无数闪光灯。机器人,已成为这届世界人工智能大会(WAIC)上最受关注的“显眼包”。
然而,当目光穿透这些日益灵活的物理实体,一场更深刻、更务实的变革正在产业的“幕后”悄然发生。南都湾财社记者观察到,相较于前两年“百模大战”的喧嚣,今年关于大模型的讨论似乎“降温”了。但这并非热度消退,而是大模型正在从喧嚣的台前走向务实的幕后,集体聚焦“落地”这一核心场景。
从华为首次在线下展出为大模型训练打造的昇腾384超节点,到阿里通义千问宣布模型下载量突破4亿、腾讯发布混元3D世界模型,再到阶跃星辰开源其321B参数的新一代基础大模型Step-3,此次展会上,头部厂商的动作清晰地表明,竞争的焦点已从单纯比拼参数规模,转向了算力基础设施的构建、全模态能力的覆盖以及开源生态的建设。
一场围绕“如何让AI真正好用、便宜、可靠”的产业淘汰赛,已经悄然打响。
告别“表演赛”
“很多巨型公司,其实还在做一些表演类的动作,比如翻跟斗、跳舞,但很难做到执行层的动作。”墨芯人工智能创始人兼CEO王维日前在复旦大学管理学院“管理大视野”走进深圳2025年会上,指出了当前机器人行业的普遍现象,“大家都在说2025是量产元年,但我们发现其实还是很难,大部分还停留在科研和演示。”
而此次展会上,从“展示”走向“实战”,正成为整个AI产业最迫切的共同命题。
在本届WAIC上,以智平方为例,其演示了机器人在横跨生活、工业、娱乐三大场景的技能。无论是打冰淇淋,还是在模拟产线上进行2X2码垛,其通用智能机器人“爱宝”都展现了场景适应性和任务执行能力。
“通用智能机器人并不是从一个场景开始做,而是从多个场景开始做,在多个场景中找到一个最小公倍数,”智平方创始人兼CEO郭彦东在接受记者采访时表示,“我们要同时满足这么多场景,模型和产品应该长什么样子?这样我们的产品才真正具有竞争力。”
这种务实的理念,让“爱宝”走向真实的产业一线。在汽车制造领域,智平方已与头部车企合作,让机器人在工厂执行上下料、贴标签等任务;在生物科技领域,则与华熙生物携手,在无菌车间进行物料转运和智能拆包;在半导体领域,也已进入吉利科技旗下晶能微电子的生产基地。
“技术展示只是第一步,真正的壁垒在于深入产业,在真实的高强度的场景中打磨。”郭彦东强调。
不止智平方,在这场“上岗”竞速中,多家机器人公司也正从不同行业切入,寻找自己的第一份“工作”。
智元机器人凭借其“机器人+具身模型”的技术路径,现已在工业制造、仓储物流、电力巡检、交互引导四大场景实现突破性落地。银河通用则将目光瞄准了商超运营,其Galbot机器人已在北京近十家药店实现常态化运营,单“人”管理着超过5000种药品和6000条货道,真正实现了全天候值守。
服务场景的颗粒度也在不断细化。傅利叶智能将赛道聚焦在更需要信任感的康养领域,其即将发布的GR-3机器人创新性地引入了柔肤软包覆材设计,主打交互陪伴,承担导诊咨询、引导康复训练等角色。而擎朗智能则在餐饮场景发力,其双足人形机器人XMAN-F1不仅能制作爆米花,还能与其它形态的服务机器人协作,共同完成餐厅的复杂任务。
从工厂车间到商超药店,再到康养病房,机器人正在用一份份来自真实产业的“工作履历”,证明自己已不再是只会表演的展品。
“大脑”的进化
机器人从“展品”走向“产品”的背后,是关于“大脑”的深层进化。如果说灵活的本体是机器人与物理世界交互的四肢,那么不断迭代的大模型,则是赋予其智慧与灵魂的核心。
在大模型算法层面,头部厂商的竞争焦点已从单纯的参数比拼,转向了对多模态能力和产业落地能力的深度挖掘。
作为国内最早布局多模态大模型的厂商之一,商汤科技在本届大会上发布了其最新的“日日新SenseNova 6.5”大模型,并推出了「悟能」具身智能平台。徐立认为,人工智能的发展正从感知AI、生成式AI,迈向与物理世界交互的“后生成式AI”时代。
“语言模型是通向AGI比较容易切入的第一步,但最终要通向人工智能,不可缺少的是多模态的能力。”商汤科技联合创始人、首席科学家林达华在接受南都湾财社记者采访时进一步解释道。他认为,世界是多模态信号共同存在的,AI要理解世界,就必须融合处理这些信号。
商汤从“日日新6.0”开始,便走向了“融合多模态”的技术路线,即用一个多模态模型统一处理所有任务。到了最新的6.5版本,更实现了“融合的思考”,即在思考过程中能生成新的图像来启发下一步的逻辑。
这种“价值回归”的趋势,也体现在其他厂商的战略中。本届WAIC上,腾讯发布的混元3D世界模型和具身智能平台Tairos,旨在打通从数字内容生成到物理实体控制的全链路;荣耀开源其MagicGUI多模态大模型,希望降低开发门槛,与全球开发者共建AI终端生态;中兴通讯则秉持“AI for All”的理念,将AI能力全面融入手机、云电脑等终端产品,构建全场景智慧生态。
以荣耀为例,荣耀CEO李健表示,“阿尔法战略”,计划在未来五年投入超100亿美元,此次开源MagicGUI多模态大模型,便是其核心举措之一。在李健看来,此举旨在降低技术研发门槛,赋能全球开发者,推动AI技术从同质化竞争走向多样化突破。
同样致力于构建全场景生态的还有中兴通讯。其一方面打造开放普惠的智算基座,另一方面则发力AI终端。本届大会上,其首度亮相的AI萌宠Mochi,便是一个探索情感陪伴的新范例。此外,其展出的AI游戏手机、AI云电脑等全系列终端,亦展示了其让AI能力全面融入硬件的决心。
从各大厂商的行动中可以看到,大模型不再是束之高阁的“屠龙之技”,而是正通过平台化、开源化、终端化的方式,加速成为驱动各行各业变革的“新质生产力”。
AGI还有多远?
当大模型的能力日益强大,一个终极问题也随之而来:我们距离通用人工智能(AGI)还有多远?
“我觉得有一个消息,可能值得大家去留意,是关于最近谷歌在IMO(国际数学奥林匹克竞赛)上拿到金牌的这个消息。”林达华提示道。在他看来,这件事的意义不在于金牌本身,而在于要观察其背后是通过专科化的方法,还是已经形成了可泛化的推理能力。
“现在的推理模型,能力主要体现在做数学题、编程这两个事情上。但当你到一些日常生活的复杂条件下,比如规划一个兼顾时间、预算和交通的复杂行程,你做数学题做到奥赛的也解不出来。”林达华认为,大模型面临的第一个重要瓶颈,就是推理能力能否从单一领域,泛化到广泛的生产、生活场景中。
第二个瓶颈,则直指具身智能的核心——空间理解能力。“我们内部很多研究发现,包括国际顶尖的多模态模型,空间感都特别弱。你给它看一个积木,问里面有几块、哪块跟哪块连在一起,这种几岁小孩都能搞明白的事它就搞不明白。”林达华坦言,“这个事情不突破的话,未来会成为具身智能落地重要的障碍。”
因此,可泛化的推理与空间能力的结合,被认为是通往AGI的下一个关键突破点。对此,产业界也在通过不同的技术路径寻找“最优解”。
正如复旦大学管理学院兼职教授、深圳创业投资同业公会会长陈玮所指出的,当前我国面临关键技术“卡脖子”等结构性瓶颈,亟需通过提升自主创新能力实现根本性突破。在AI算力领域,这种以底层技术创新寻求破局的探索,正是对这一时代命题的直接回应。
AI产业的竞争,已从单一维度的算法或模型比拼,演进为一场涵盖软件、硬件、算法、数据和场景理解的“全栈式”系统工程竞赛。问题的答案,最终将在工厂的产线上、医院的诊断中、以及千家万户的日常服务里得到检验。
采写:南都湾财社记者 严兆鑫
1、武大“图书馆性骚扰”事件一审宣判!男生患PTSD,女生精神崩溃
2、湖北前首富、知名家居巨头董事长被曝坠楼身亡,湖北首富21亿身家
3、四川3家新国企揭牌成立!涵盖文旅、城市更新、轨道交通领域,四川国企改革概念股