阿里世界模型 HappyOyster 全面解读

来自版块 深度
12
0
阿里新出了个世界模型,叫HappyOyster,中文名「快乐生蚝」

上面这段,就是HappyOyster跑出来的世界。能用一句话生成,能用WASD走进去,能在生成过程里持续插指令改剧情,能保存下来分享给别人二创

一句话,给出能走进去的世界

「快乐生蚝」这个名字听起来有点怪,其实大有来头

The world is your oyster.—莎士比亚

这句话出自莎士比亚1597年的《温莎的快活妇人》。四百年来,一直被译作「世界是你的牡蛎」,本意是世界任你打开。HappyOyster把这句比喻,做成了字面意义上的产品,然后这句话,也是产品的slogan。

这个产品的背后,是阿里ATH创新事业部,跟之前屠榜Artificial Analysis视频竞技场的HappyHorse同属一个部门。当前处于Beta内测阶段,通过官网happyoyster.cn加入候补名单

四大核心能力速览官方把HappyOyster的能力归到四个支点

Wander漫游一句话或一张图生成3D空间,WASD走进去探索。1分钟、480p

Direct导演生成过程里持续插入指令,实时改镜头、改剧情。3分钟、480p或720p

Create创造交付的是一个可走进去的完整世界,越过了视频生成工具这一站

Share分享用户生成的世界可保存、可被其他人二创,形成创作者生态

下面分别看具体效果

Wander漫游:走进画面里输入一句话或一张图,生成一个具备物理一致性的3D空间。鼠标控制视角,WASD控制移动方向,第一人称视角自由探索

视角转动后场景内物体位置稳定,光照随视角连续变化。突破初始画框的边界后,世界仍在继续生成

第一个例子,用梵高《星夜》做生成,走进画里之后,柏树和教堂都立了起来,星空旋涡还在头顶转,画风一直是梵高的

切换到写实风格也能跑,第一人称在金色废墟里走,藤蔓挂在残柱上。光跟着视角换,画面跟3A游戏放一起也不违和

这里的体验,跟玩游戏的体验比较像,区别在于,游戏世界是开发团队提前几年做好的。HappyOyster的世界,是模型在你按下方向键的同时,一帧一帧实时算出来的

当然,除了名画和写实,Wander还能跑卡通、像素、童话等风格,画质之间没有明显断层

Direct导演:在生成中改剧情输入一个初始prompt启动生成后,可以在视频流任意节点继续下达新指令。指令可以是文字、语音或图像,能实时切换镜头、调整角色动作、改变剧情走向

传统视频生成的工作流是,写prompt→等渲染→收成片,是一次性的。Direct模式让用户能在生成过程里持续干预,画面持续演化,不需要重启生成

第一个例子是卡通鳄鱼飞行员。在生成过程里,输入了一句新指令,画面里是一只戴风镜的鳄鱼飞行员,开着飞机看夕阳。中途用户输入「Show the whole helicopter」(展示整架直升机)。下一帧镜头拉远,整架直升机出现。鳄鱼变成驾驶舱角落里的小人,手在仪表盘上

鳄鱼飞行员,中途输入「Show the whole helicopter」

中文叙事题材也能跑,下面这个是「金手指系统」开局短剧

中文短剧「第一个任务,买车」

第一帧少年坐在简陋房间里被金光笼罩,下一帧弹出系统HUD界面,再下一帧切到停车场。画面、中文字幕「第一个任务,买车」、系统UI同时生成

效果上等于把用户,从观众席挪到了导演位上

Create和Share:从视频到世界Create和Share这两块能力更接近一句产品哲学,官方把它叫做「打破第四面墙」

比如「我的世界」是一款游戏,也可以是一个世界,hhhh

过去几年,生成式AI经历了几次跃迁:生成文本、生成图像、生成视频。但这些能力都停留在「生成像素」这一层。画面越来越逼真,用户能做的依然只有一件事:看

那么,为什么不能让用户能推门、走进画面、亲手改写,能离开又回来,也能带朋友进去

如果我们把小生蚝做成视频,也蛮有意思的,比如下面这个

真–快乐生蚝

一只戴着生蚝壳当帽子的小动物,在森林里走。每走两步,样子换一遍。背景里的花、草、菌类、倒在地上的同类,一帧一换。整段没有剧情,画面一直在往前推

技术路径阿里给出的技术能力归纳是三点

长时序世界建模:通过海量长视频数据,模型学到了真实世界的状态转移规律,能在长时间跨度里,保持高保真的动态场景生成

实时交互控制:在建模初始,就设计了多样的控制信号(文本、Action、图像等)。让外部指令持续作用于世界状态演化,而不只作用于初始条件

音视频联合生成:视觉和听觉协同建模、同步生成

阿里把这一组能力描述为「从『被动生成内容』转变为『主动模拟、并让用户参与世界演化』」

世界模型这个赛道,谷歌DeepMind 2025年8月发布Genie 3时定下了一个起点:720p、24fps、几分钟环境一致性。能用文本指令在画面里加天气、加角色、触发事件,谷歌把这种能力叫做「promptable world events」

HappyOyster在官方表述里跟Genie 3处在同一方向上,做的是实时交互式世界建模。阿里把扩展点放在两处:一是在文本、控制信号、图像等多源条件下,做一致的时序建模。二是引入音视频联合生成,把世界模拟从单一视觉通道,扩展到多感知协同

前面Direct模式那段「Show the whole helicopter」改镜头的演示,跟谷歌的promptable world events是同一件事的产品化呈现

剩下的判断要等更多公开测评

当前能力边界世界模型整体处于早期阶段,HappyOyster也不例外。把当前能跑通的事,和暂时跑不通的事罗列清楚,方便心里有数

当前能跑通的

→Wander漫游,最长1分钟连续位移和镜头控制,分辨率480p

→Direct导演,连续生成3分钟以上画面,分辨率可选480p或720p

→多模态输入,文字、图像、语音都能作为指令

→音视频联合生成,画面跟声音同步出

→风格泛化,写实、卡通、像素、名画都能跑

→中文叙事和中文UI字幕的同时生成

→用户生成的世界保存下来,开放给其他用户二次创作

暂时跑不通的

漫游和导演两个模式当前没有打通。Wander模式下能自由探索,但不能在探索过程里实时改写场景规则。Direct模式下能改剧情,但不能用WASD走进画面里。阿里方面表示未来会做融合,现在不能

实时控制人物移动和镜头旋转时,存在卡顿,流畅度还有提升空间

商业化路径尚未明确。当前只对部分用户开放早期访问,定价和API开放节奏都还没公布

这背后是阿里ATHHappyOyster的研发团队来自阿里ATH(Alibaba Token Hub)创新事业部,跟之前那匹屠榜的HappyHorse同属一脉

今年3月的时候,阿里巴巴CEO吴泳铭亲自挂帅,成立了ATH事业群。下面整合了通义实验室、MaaS业务线、千问事业部、悟空事业部、AI创新事业部五大板块。吴泳铭在最新一季财报电话会上,给ATH设的目标是:未来五年,云和AI商业化的年收入要做到1000亿美元

谷歌Genie 3把天花板放在那里,国产几家在追。阿里ATH选了实时交互这一支,HappyOyster是这条线上的第一个产品

莎士比亚那句话,被搬到2026年的世界模型里,似乎又多了一层意味

The world is your oyster, open it
1f9aa.jpg 快乐生蚝 1f9aa.jpg

全部评论 0

您需要登录后才可以回帖 立即登录
说说你的想法......
0
0
0
返回顶部