今日,腾讯混元世界模型1.5(Tencent HY WorldPlay)正式发布,它带来了前所未有的创新与体验。
此模型以其独特的创造方式引人注目:只需通过文字描述或图片输入,用户即可轻松创建属于自己的互动世界。不仅如此,它还提供了沉浸式实时交互体验,通过键盘、鼠标或手柄,即可实时控制虚拟相机的移动和转向,让你可以像玩游戏一样自由AI生成的世界。

混元世界模型1.5的发布在业界引起了巨大的关注。它首次开源了最系统、最全面的实时世界模型框架,涵盖了数据、训练、流式推理部署等全链路、全环节。这一创新性的框架为世界建模带来了新的突破。
用户的每一次都将在混元世界模型1.5中留下独特的印记。离开某个区域后,再次返回时,模型能够"记住"该区域的三维结构,呈现出前后一致的场景。这种空间记忆能力标志着模型在三维世界理解上的重大突破。用户还可以选择将用于交互的3D场景导出为可多次使用的3D点云,为创作带来更多可能性。
混元世界模型1.5具备三大核心能力:实时的交互生成、长范围的3D一致性以及多样化的交互体验。通过原创的Context Forcing蒸馏方案以及流式推理优化,模型能够以24 FPS的速度生成720P的高清视频。它支持分钟级内容的几何一致性生成,可用于构建高质量的3D空间模拟器。无论是第一还是第三人称视角,混元世界模型都能带来丰富的交互体验,并支持实时文本触发和视频续写等功能。
技术上,混元世界模型1.5展现了强大的实力。它首次开源了业界最系统、最全面的实时世界模型训练体系,涵盖了数据、训练、推理部署等全链路、全环节。该模型的核心是一个自回归扩散模型WorldPlay,它采用Next-Frames-Prediction的视觉自回归任务进行训练,实现了长范围几何一致性的实时交互式世界建模。
腾讯混元团队的技术报告详细公开了模型预训练、持续训练、自回归视频模型强化学习、带记忆力的模型蒸馏的训练细节。模型的三大核心创新包括双分支动作表征、上下文记忆重构机制和上下文对齐蒸馏技术。该工作还构建了一套基于3D奖励的强化学习后训练框架,进一步增强了生成视频的视觉质量和几何一致性。
混元世界模型1.5的发布是腾讯混元团队持续深耕世界模型技术的成果。从混元3D世界模型1.0到混元世界模型1.5,团队不断突破技术瓶颈,为用户带来了更加丰富的体验。
此次发布的混元世界模型1.5不仅是一次技术上的突破,更是打开了“AI生成内容”的想象空间。未来的AI不仅可以生成文本、图像或视频等模态,还可以创造实时、可交互、空间一致的完整“世界”。这种全新的内容生成模式可以广泛应用于AI游戏开发、影视制作、虚拟现实(VR)以及具身智能研究领域,为创作者和研究者提供更多可能性。