阿里世界模型 HappyOyster 全面解读

阿里新出了个世界模型，叫HappyOyster，中文名「快乐生蚝」

上面这段，就是HappyOyster跑出来的世界。能用一句话生成，能用WASD走进去，能在生成过程里持续插指令改剧情，能保存下来分享给别人二创

一句话，给出能走进去的世界

「快乐生蚝」这个名字听起来有点怪，其实大有来头

The world is your oyster.—莎士比亚

这句话出自莎士比亚1597年的《温莎的快活妇人》。四百年来，一直被译作「世界是你的牡蛎」，本意是世界任你打开。HappyOyster把这句比喻，做成了字面意义上的产品，然后这句话，也是产品的slogan。

这个产品的背后，是阿里ATH创新事业部，跟之前屠榜Artificial Analysis视频竞技场的HappyHorse同属一个部门。当前处于Beta内测阶段，通过官网happyoyster.cn加入候补名单

四大核心能力速览官方把HappyOyster的能力归到四个支点

Wander漫游一句话或一张图生成3D空间，WASD走进去探索。1分钟、480p

Direct导演生成过程里持续插入指令，实时改镜头、改剧情。3分钟、480p或720p

Create创造交付的是一个可走进去的完整世界，越过了视频生成工具这一站

Share分享用户生成的世界可保存、可被其他人二创，形成创作者生态

下面分别看具体效果

Wander漫游：走进画面里输入一句话或一张图，生成一个具备物理一致性的3D空间。鼠标控制视角，WASD控制移动方向，第一人称视角自由探索

视角转动后场景内物体位置稳定，光照随视角连续变化。突破初始画框的边界后，世界仍在继续生成

第一个例子，用梵高《星夜》做生成，走进画里之后，柏树和教堂都立了起来，星空旋涡还在头顶转，画风一直是梵高的

切换到写实风格也能跑，第一人称在金色废墟里走，藤蔓挂在残柱上。光跟着视角换，画面跟3A游戏放一起也不违和

这里的体验，跟玩游戏的体验比较像，区别在于，游戏世界是开发团队提前几年做好的。HappyOyster的世界，是模型在你按下方向键的同时，一帧一帧实时算出来的

当然，除了名画和写实，Wander还能跑卡通、像素、童话等风格，画质之间没有明显断层

Direct导演：在生成中改剧情输入一个初始prompt启动生成后，可以在视频流任意节点继续下达新指令。指令可以是文字、语音或图像，能实时切换镜头、调整角色动作、改变剧情走向

传统视频生成的工作流是，写prompt→等渲染→收成片，是一次性的。Direct模式让用户能在生成过程里持续干预，画面持续演化，不需要重启生成

第一个例子是卡通鳄鱼飞行员。在生成过程里，输入了一句新指令，画面里是一只戴风镜的鳄鱼飞行员，开着飞机看夕阳。中途用户输入「Show the whole helicopter」（展示整架直升机）。下一帧镜头拉远，整架直升机出现。鳄鱼变成驾驶舱角落里的小人，手在仪表盘上

鳄鱼飞行员，中途输入「Show the whole helicopter」

中文叙事题材也能跑，下面这个是「金手指系统」开局短剧

中文短剧「第一个任务，买车」

第一帧少年坐在简陋房间里被金光笼罩，下一帧弹出系统HUD界面，再下一帧切到停车场。画面、中文字幕「第一个任务，买车」、系统UI同时生成

效果上等于把用户，从观众席挪到了导演位上

Create和Share：从视频到世界Create和Share这两块能力更接近一句产品哲学，官方把它叫做「打破第四面墙」

比如「我的世界」是一款游戏，也可以是一个世界，hhhh

过去几年，生成式AI经历了几次跃迁：生成文本、生成图像、生成视频。但这些能力都停留在「生成像素」这一层。画面越来越逼真，用户能做的依然只有一件事：看

那么，为什么不能让用户能推门、走进画面、亲手改写，能离开又回来，也能带朋友进去

如果我们把小生蚝做成视频，也蛮有意思的，比如下面这个

真–快乐生蚝

一只戴着生蚝壳当帽子的小动物，在森林里走。每走两步，样子换一遍。背景里的花、草、菌类、倒在地上的同类，一帧一换。整段没有剧情，画面一直在往前推

技术路径阿里给出的技术能力归纳是三点

长时序世界建模：通过海量长视频数据，模型学到了真实世界的状态转移规律，能在长时间跨度里，保持高保真的动态场景生成

实时交互控制：在建模初始，就设计了多样的控制信号（文本、Action、图像等）。让外部指令持续作用于世界状态演化，而不只作用于初始条件

音视频联合生成：视觉和听觉协同建模、同步生成

阿里把这一组能力描述为「从『被动生成内容』转变为『主动模拟、并让用户参与世界演化』」

世界模型这个赛道，谷歌DeepMind 2025年8月发布Genie 3时定下了一个起点：720p、24fps、几分钟环境一致性。能用文本指令在画面里加天气、加角色、触发事件，谷歌把这种能力叫做「promptable world events」

HappyOyster在官方表述里跟Genie 3处在同一方向上，做的是实时交互式世界建模。阿里把扩展点放在两处：一是在文本、控制信号、图像等多源条件下，做一致的时序建模。二是引入音视频联合生成，把世界模拟从单一视觉通道，扩展到多感知协同

前面Direct模式那段「Show the whole helicopter」改镜头的演示，跟谷歌的promptable world events是同一件事的产品化呈现

剩下的判断要等更多公开测评

当前能力边界世界模型整体处于早期阶段，HappyOyster也不例外。把当前能跑通的事，和暂时跑不通的事罗列清楚，方便心里有数

当前能跑通的

→Wander漫游，最长1分钟连续位移和镜头控制，分辨率480p

→Direct导演，连续生成3分钟以上画面，分辨率可选480p或720p

→多模态输入，文字、图像、语音都能作为指令

→音视频联合生成，画面跟声音同步出

→风格泛化，写实、卡通、像素、名画都能跑

→中文叙事和中文UI字幕的同时生成

→用户生成的世界保存下来，开放给其他用户二次创作

暂时跑不通的

漫游和导演两个模式当前没有打通。Wander模式下能自由探索，但不能在探索过程里实时改写场景规则。Direct模式下能改剧情，但不能用WASD走进画面里。阿里方面表示未来会做融合，现在不能

实时控制人物移动和镜头旋转时，存在卡顿，流畅度还有提升空间

商业化路径尚未明确。当前只对部分用户开放早期访问，定价和API开放节奏都还没公布

这背后是阿里ATHHappyOyster的研发团队来自阿里ATH（Alibaba Token Hub）创新事业部，跟之前那匹屠榜的HappyHorse同属一脉

今年3月的时候，阿里巴巴CEO吴泳铭亲自挂帅，成立了ATH事业群。下面整合了通义实验室、MaaS业务线、千问事业部、悟空事业部、AI创新事业部五大板块。吴泳铭在最新一季财报电话会上，给ATH设的目标是：未来五年，云和AI商业化的年收入要做到1000亿美元

谷歌Genie 3把天花板放在那里，国产几家在追。阿里ATH选了实时交互这一支，HappyOyster是这条线上的第一个产品

莎士比亚那句话，被搬到2026年的世界模型里，似乎又多了一层意味

The world is your oyster, open it

快乐生蚝

帐号		自动登录	找回密码
密码			立即注册

阿里世界模型 HappyOyster 全面解读

全部评论 0

热文

怎么提高四象限图时间管理230热度

微淘公众平台:22个自媒体平台+注册入口229热度

小红书发力店播，谁拿到了红利？228热度

巧用视频号分享员玩法，直播流量翻倍223热度

《欢乐钓鱼大师》拿下畅销榜TOP6的实力是什么223热度

聪明大脑如何匹配现实需求？221热度

抖音生服又出手了，这4条红线千万别碰210热度

《庆余年》广告推广为啥这么多解析210热度

“剧王”《庆余年2》：一个超级IP的诞生188热度

千问宣布春节期间已完成2亿笔真实订单180热度

移动飞信晨曦版，联通电信用户可注册176热度

媒体推广渠道40个平台值得收藏175热度

京东2025年营收超1.3万亿活跃用户突破7亿174热度

“狼性”刘强东越来越焦虑了172热度

小崔读书汇抛弃微博去今日头条怎么看172热度

文玩电商头部平台分化剩余玩家面临挑战170热度

装饰互联网公司是做什么的168热度

内部营销有哪些营销模式167热度

TOB客户私域运营渠道整理与反哺166热度

微信朋友圈广告、微信视频号广告投流161热度

所属版块