WAIC观察：当机器人走向台前，大模型在幕后竞速落地场景,机器人创意外观

7月26日-28日，上海世博展览馆，正成为人形机器人盛大的秀场。

在宇树科技的展台，两台人形机器人正在擂台上演“格斗赛”；不远处的数字华夏舞台上，仿生机器人“夏澜”正与真人Coser共舞；而在智平方的展台，通用智能机器人“爱宝”则在熟练地为观众制作冰淇淋，还能随时切换角色，敲上一段激昂的架子鼓。

与此同时，在大模型论坛上，商汤科技董事长兼CEO徐立展示的人形机器人，正对着PPT侃侃而谈，风趣幽默地讲解着“长安的荔枝”，甚至还能随时停下与观众互动问答。

这些能与人自然交互、完成复杂任务的“新物种”，吸引着大量观众和无数闪光灯。机器人，已成为这届世界人工智能大会（WAIC）上最受关注的“显眼包”。

然而，当目光穿透这些日益灵活的物理实体，一场更深刻、更务实的变革正在产业的“幕后”悄然发生。南都湾财社记者观察到，相较于前两年“百模大战”的喧嚣，今年关于大模型的讨论似乎“降温”了。但这并非热度消退，而是大模型正在从喧嚣的台前走向务实的幕后，集体聚焦“落地”这一核心场景。

从华为首次在线下展出为大模型训练打造的昇腾384超节点，到阿里通义千问宣布模型下载量突破4亿、腾讯发布混元3D世界模型，再到阶跃星辰开源其321B参数的新一代基础大模型Step-3，此次展会上，头部厂商的动作清晰地表明，竞争的焦点已从单纯比拼参数规模，转向了算力基础设施的构建、全模态能力的覆盖以及开源生态的建设。

一场围绕“如何让AI真正好用、便宜、可靠”的产业淘汰赛，已经悄然打响。

告别“表演赛”

“很多巨型公司，其实还在做一些表演类的动作，比如翻跟斗、跳舞，但很难做到执行层的动作。”墨芯人工智能创始人兼CEO王维日前在复旦大学管理学院“管理大视野”走进深圳2025年会上，指出了当前机器人行业的普遍现象，“大家都在说2025是量产元年，但我们发现其实还是很难，大部分还停留在科研和演示。”

而此次展会上，从“展示”走向“实战”，正成为整个AI产业最迫切的共同命题。

在本届WAIC上，以智平方为例，其演示了机器人在横跨生活、工业、娱乐三大场景的技能。无论是打冰淇淋，还是在模拟产线上进行2X2码垛，其通用智能机器人“爱宝”都展现了场景适应性和任务执行能力。

“通用智能机器人并不是从一个场景开始做，而是从多个场景开始做，在多个场景中找到一个最小公倍数，”智平方创始人兼CEO郭彦东在接受记者采访时表示，“我们要同时满足这么多场景，模型和产品应该长什么样子？这样我们的产品才真正具有竞争力。”

这种务实的理念，让“爱宝”走向真实的产业一线。在汽车制造领域，智平方已与头部车企合作，让机器人在工厂执行上下料、贴标签等任务；在生物科技领域，则与华熙生物携手，在无菌车间进行物料转运和智能拆包；在半导体领域，也已进入吉利科技旗下晶能微电子的生产基地。

“技术展示只是第一步，真正的壁垒在于深入产业，在真实的高强度的场景中打磨。”郭彦东强调。

不止智平方，在这场“上岗”竞速中，多家机器人公司也正从不同行业切入，寻找自己的第一份“工作”。

智元机器人凭借其“机器人+具身模型”的技术路径，现已在工业制造、仓储物流、电力巡检、交互引导四大场景实现突破性落地。银河通用则将目光瞄准了商超运营，其Galbot机器人已在北京近十家药店实现常态化运营，单“人”管理着超过5000种药品和6000条货道，真正实现了全天候值守。

服务场景的颗粒度也在不断细化。傅利叶智能将赛道聚焦在更需要信任感的康养领域，其即将发布的GR-3机器人创新性地引入了柔肤软包覆材设计，主打交互陪伴，承担导诊咨询、引导康复训练等角色。而擎朗智能则在餐饮场景发力，其双足人形机器人XMAN-F1不仅能制作爆米花，还能与其它形态的服务机器人协作，共同完成餐厅的复杂任务。

从工厂车间到商超药店，再到康养病房，机器人正在用一份份来自真实产业的“工作履历”，证明自己已不再是只会表演的展品。

“大脑”的进化

机器人从“展品”走向“产品”的背后，是关于“大脑”的深层进化。如果说灵活的本体是机器人与物理世界交互的四肢，那么不断迭代的大模型，则是赋予其智慧与灵魂的核心。

在大模型算法层面，头部厂商的竞争焦点已从单纯的参数比拼，转向了对多模态能力和产业落地能力的深度挖掘。

作为国内最早布局多模态大模型的厂商之一，商汤科技在本届大会上发布了其最新的“日日新SenseNova 6.5”大模型，并推出了「悟能」具身智能平台。徐立认为，人工智能的发展正从感知AI、生成式AI，迈向与物理世界交互的“后生成式AI”时代。

“语言模型是通向AGI比较容易切入的第一步，但最终要通向人工智能，不可缺少的是多模态的能力。”商汤科技联合创始人、首席科学家林达华在接受南都湾财社记者采访时进一步解释道。他认为，世界是多模态信号共同存在的，AI要理解世界，就必须融合处理这些信号。

商汤从“日日新6.0”开始，便走向了“融合多模态”的技术路线，即用一个多模态模型统一处理所有任务。到了最新的6.5版本，更实现了“融合的思考”，即在思考过程中能生成新的图像来启发下一步的逻辑。

这种“价值回归”的趋势，也体现在其他厂商的战略中。本届WAIC上，腾讯发布的混元3D世界模型和具身智能平台Tairos，旨在打通从数字内容生成到物理实体控制的全链路；荣耀开源其MagicGUI多模态大模型，希望降低开发门槛，与全球开发者共建AI终端生态；中兴通讯则秉持“AI for All”的理念，将AI能力全面融入手机、云电脑等终端产品，构建全场景智慧生态。

以荣耀为例，荣耀CEO李健表示，“阿尔法战略”，计划在未来五年投入超100亿美元，此次开源MagicGUI多模态大模型，便是其核心举措之一。在李健看来，此举旨在降低技术研发门槛，赋能全球开发者，推动AI技术从同质化竞争走向多样化突破。

同样致力于构建全场景生态的还有中兴通讯。其一方面打造开放普惠的智算基座，另一方面则发力AI终端。本届大会上，其首度亮相的AI萌宠Mochi，便是一个探索情感陪伴的新范例。此外，其展出的AI游戏手机、AI云电脑等全系列终端，亦展示了其让AI能力全面融入硬件的决心。

从各大厂商的行动中可以看到，大模型不再是束之高阁的“屠龙之技”，而是正通过平台化、开源化、终端化的方式，加速成为驱动各行各业变革的“新质生产力”。

AGI还有多远？

当大模型的能力日益强大，一个终极问题也随之而来：我们距离通用人工智能（AGI）还有多远？

“我觉得有一个消息，可能值得大家去留意，是关于最近谷歌在IMO（国际数学奥林匹克竞赛）上拿到金牌的这个消息。”林达华提示道。在他看来，这件事的意义不在于金牌本身，而在于要观察其背后是通过专科化的方法，还是已经形成了可泛化的推理能力。

“现在的推理模型，能力主要体现在做数学题、编程这两个事情上。但当你到一些日常生活的复杂条件下，比如规划一个兼顾时间、预算和交通的复杂行程，你做数学题做到奥赛的也解不出来。”林达华认为，大模型面临的第一个重要瓶颈，就是推理能力能否从单一领域，泛化到广泛的生产、生活场景中。

第二个瓶颈，则直指具身智能的核心——空间理解能力。“我们内部很多研究发现，包括国际顶尖的多模态模型，空间感都特别弱。你给它看一个积木，问里面有几块、哪块跟哪块连在一起，这种几岁小孩都能搞明白的事它就搞不明白。”林达华坦言，“这个事情不突破的话，未来会成为具身智能落地重要的障碍。”

因此，可泛化的推理与空间能力的结合，被认为是通往AGI的下一个关键突破点。对此，产业界也在通过不同的技术路径寻找“最优解”。

正如复旦大学管理学院兼职教授、深圳创业投资同业公会会长陈玮所指出的，当前我国面临关键技术“卡脖子”等结构性瓶颈，亟需通过提升自主创新能力实现根本性突破。在AI算力领域，这种以底层技术创新寻求破局的探索，正是对这一时代命题的直接回应。

AI产业的竞争，已从单一维度的算法或模型比拼，演进为一场涵盖软件、硬件、算法、数据和场景理解的“全栈式”系统工程竞赛。问题的答案，最终将在工厂的产线上、医院的诊断中、以及千家万户的日常服务里得到检验。

采写：南都湾财社记者严兆鑫

Top

1、武大“图书馆性骚扰”事件一审宣判！男生患PTSD，女生精神崩溃

2、湖北前首富、知名家居巨头董事长被曝坠楼身亡,湖北首富21亿身家

3、四川3家新国企揭牌成立！涵盖文旅、城市更新、轨道交通领域,四川国企改革概念股

小编推荐

仰望U8L鼎世版预售发布会7月31日举行，定位全尺寸行政豪华SUV,仰望科技有限公司

转型期会很痛苦，但是大部分人没有丝毫思想准备,转型期的两难烦恼

当前文章：http://www.share.cycgw.cn/UXA/detail/ndsglk.html

WAIC观察：当机器人走向台前，大模型在幕后竞速落地场景,机器人创意外观

Top

小编推荐

相关阅读

网友评论