物理AI第一股Momenta来了:自动驾驶迎来“重估时刻”

来自版块 天文探索
33
0
此前,无论大语言模型还是Agent、龙虾,AI始终在“屏幕内”,「数字AI」不断探索边界,也卷成了红海。而现在,在屏幕之外,一个更庞大、更具想象力的AI新战场正在形成——行业目光集体转向能真正在真实世界里动手干活儿的「物理AI」。

巨头对此纷纷下注:英伟达高调推出全模态物理AI模型NVIDIA Cosmos3,还亮出了机器人领域的全家桶,黄仁勋反复强调物理AI将成为下一波浪潮,世界模型是实现物理人工智能的核心;马斯克也在将AI的触角延伸至物理世界,FSD(完全自动驾驶)实现端到端进化,Optimus人形机器人高频迭代……

有意思的是,在物理AI的蓝图里,率先承接机会的并非是尚在实验室里练习行走的双足人形机器人,而是已经在公路上比比皆是的智能汽车。自动驾驶是目前非常稀缺的能够同时跑通“海量物理数据闭环”与“高频商业造血”的通用物理AI场景。而世界模型则是物理AI的底座,是激发物理AI“GPT时刻”的关键突破口。

6月23日,物理AI公司Momenta通过港交所聆讯,正式进入IPO冲刺阶段,即将领衔“物理AI第一股”。在智驾的基础上,Momenta正在打造一个能够理解物理规律、推演世界演变的通用世界模型,成为物理AI基座模型的构建者。

目前,Momenta R7世界模型已实现量产首发,意味着物理AI正式从技术理念走向规模化量产落地,实现从“看见世界”到“理解世界”的跨越。与此同时,在竞争最为激烈的中国第三方城市NOA供应商市场中,Momenta以高达65%的市占率行业居首,Momenta的客户已覆盖国内全部主流乘用车企业,且全球前10大车企中已有9家与其开展合作,成为“全球品牌的共同选择”,这也验证了自动驾驶作为物理AI的核心赛道的规模化商业价值。

此外,Momenta的股东阵容极其豪华,汇聚了全球最核心的产业和科技战略投资人,以及全球顶级财务投资人。产业资本囊括了全球汽车产业链的核心玩家,包括:上汽、通用、奔驰、丰田、比亚迪、现代、奇瑞等7家全球顶级车企,以及博世、德赛西威、立讯精密等头部产业链合作伙伴,和Uber、Grab、Stone Venture等Robo合作伙伴。科技巨头则包括腾讯、阿里云、蚂蚁集团、京东等。财务投资人更是覆盖了淡马锡、IDG、阿曼投资局、亦庄国投、Granite Asia、顺为、蔚来资本、凯辉基金、云锋基金、蓝湖资本、创新工场、真格基金、鼎晖投资、高榕创投、高成资本、众为资本、愉悦资本、钟鼎资本、盈峰资本、招银国际、华泰创新资本、混沌资本、春华资本、大湾区基金、国新基金、光合创投、九合创投、锦秋基金等全球最顶尖投资机构。超豪华、多元化的股东阵营,不仅为Momenta提供了战略和资本支持,还从业务协同、用户增长和全球化布局等方面助力了Momenta高速增长。

世界模型带来新的“GPT时刻”

说起“物理AI”其实不难理解,简单来说,它就是将人工智能的感知、决策与学习能力,深度嵌入机器人、智能设备、自动化产线等物理实体系统中,使其能够在复杂、动态的真实物理环境中自主执行任务。如果说过去AI突破主要体现在数字世界,那么物理AI的兴起,则意味着AI发展进入了以理解和影响物理世界为核心的新阶段。

但不同于数字AI,物理AI并不是一条单线赛道。具身智能、自动驾驶、工业机器人、边缘AI,都在把AI从屏幕带进现实世界,它们之间也并非对立关系,更像是物理AI走向现实的不同入口。而世界模型(World Model),正是这一切的共同底座——它是AI理解物理世界、预判未来并自主决策的“内在思维系统”。

要理解世界模型的关键性,我们不妨将其与大语言模型(LLM)做个对比:

大语言模型擅长的是“读万卷书”,它理解语义、擅长推理,在虚拟符号世界里无所不知,但它并不真正掌握物理规律,无法本能地理解“推倒杯子水就会洒”;世界模型则擅长“行万里路”,它能够深刻理解物理世界的规则,预测动作带来的后果,并支持AI在现实世界中做出实际行动。

纯语言模型或传统简单算法的短板很明显:它们要么不懂物理规律,无法应对瞬息万变的动态场景;要么必须在真实环境中通过海量的肉身试错来“刷经验”,比如机器人不断摔倒,这不仅导致硬件损耗成本高昂,更伴随着不可承受的安全风险。

现实世界场景多变且充满不确定性,人类无法用死板的规则预设所有的突发情况。因此AI必须具备自主理解和预判能力,才能适应不同环境。而世界模型正是要解决这一痛点——在AI的大脑中搭建了一个“虚拟练兵场”,先通过预训练赋予模型理解现实世界的“物理直觉”,让AI真正“懂物理”;再利用这套规律在虚拟练兵场里“脑补”行动后果,配合强化学习的奖惩机制,让大模型在无风险、低成本的环境中反复探索、试错并给出最优决策。这种从理解物理规律到在虚拟试错中进化出最优行动方案的闭环能力,正是世界模型能够打破虚拟与现实鸿沟,成为具身智能和通用人工智能核心基石的关键原因。

今年世界模型热度明显升温,很多不同的技术路线、不同的场景模型都冠以世界模型:

有的以语言为中心,比如VLM、VLA是把其它模态、其它能力映射到语言空间。

有的以像素为中心,比如Sora,实际上是在预测下一个2D像素场景,由于其训练数据大量来自影视作品,模型极易生成不符合真实物理规律的内容,比如像星战“原力”一样违背重力逻辑的画面。图灵奖得主Yann LeCun也曾多次公开批评,生成像素并不等同于理解物理因果;

还有的以三维结构为中心,比如李飞飞World Labs的"空间智能"理念,从单张图片生成可交互的持久化3D环境,本质上瞄准的是数字世界的构建。但模型重建3D空间不等于理解世界,几何结构也不代表复杂的物理动态演变状态。

由此可见,当前各个方向的世界模型的痛点核心,在于对物理规律的理解深度,以及能否最终服务于“行动”。我们开发世界模型,不是为了教模型去生成一段好看的视频,而是要教它理解物理规律,并基于这种理解去精准预测下一个状态。行业真正需要的,是把多模态感知、物理规律理解和动作执行三者彻底打通。

全部评论 0

您需要登录后才可以回帖 立即登录
说说你的想法......
0
0
0
返回顶部