国内首个开放实时体验的世界模型腾讯混元世界模型1.5发布

周易八卦
2025-12-18
www.luopanw.cn
生辰八字

今日，腾讯混元世界模型1.5（Tencent HY WorldPlay）正式发布，它带来了前所未有的创新与体验。

此模型以其独特的创造方式引人注目：只需通过文字描述或图片输入，用户即可轻松创建属于自己的互动世界。不仅如此，它还提供了沉浸式实时交互体验，通过键盘、鼠标或手柄，即可实时控制虚拟相机的移动和转向，让你可以像玩游戏一样自由AI生成的世界。

混元世界模型1.5的发布在业界引起了巨大的关注。它首次开源了最系统、最全面的实时世界模型框架，涵盖了数据、训练、流式推理部署等全链路、全环节。这一创新性的框架为世界建模带来了新的突破。

用户的每一次都将在混元世界模型1.5中留下独特的印记。离开某个区域后，再次返回时，模型能够"记住"该区域的三维结构，呈现出前后一致的场景。这种空间记忆能力标志着模型在三维世界理解上的重大突破。用户还可以选择将用于交互的3D场景导出为可多次使用的3D点云，为创作带来更多可能性。

混元世界模型1.5具备三大核心能力：实时的交互生成、长范围的3D一致性以及多样化的交互体验。通过原创的Context Forcing蒸馏方案以及流式推理优化，模型能够以24 FPS的速度生成720P的高清视频。它支持分钟级内容的几何一致性生成，可用于构建高质量的3D空间模拟器。无论是第一还是第三人称视角，混元世界模型都能带来丰富的交互体验，并支持实时文本触发和视频续写等功能。

技术上，混元世界模型1.5展现了强大的实力。它首次开源了业界最系统、最全面的实时世界模型训练体系，涵盖了数据、训练、推理部署等全链路、全环节。该模型的核心是一个自回归扩散模型WorldPlay，它采用Next-Frames-Prediction的视觉自回归任务进行训练，实现了长范围几何一致性的实时交互式世界建模。

腾讯混元团队的技术报告详细公开了模型预训练、持续训练、自回归视频模型强化学习、带记忆力的模型蒸馏的训练细节。模型的三大核心创新包括双分支动作表征、上下文记忆重构机制和上下文对齐蒸馏技术。该工作还构建了一套基于3D奖励的强化学习后训练框架，进一步增强了生成视频的视觉质量和几何一致性。

混元世界模型1.5的发布是腾讯混元团队持续深耕世界模型技术的成果。从混元3D世界模型1.0到混元世界模型1.5，团队不断突破技术瓶颈，为用户带来了更加丰富的体验。

此次发布的混元世界模型1.5不仅是一次技术上的突破，更是打开了“AI生成内容”的想象空间。未来的AI不仅可以生成文本、图像或视频等模态，还可以创造实时、可交互、空间一致的完整“世界”。这种全新的内容生成模式可以广泛应用于AI游戏开发、影视制作、虚拟现实（VR）以及具身智能研究领域，为创作者和研究者提供更多可能性。

上一篇：马克龙在英国《金融时报》发文欧盟必须对中国开放

下一篇：没有了