混元世界模型上新，综合能力问鼎WorldScore排行榜

今天，混元3D世界模型系列最新成员——HunyuanWorld-Voyager（简称混元Voyager）正式发布，这也是业界首个支持原生3D重建的超长漫游世界模型。

该模型聚焦于AI在空间智能领域的应用扩展，将为虚拟现实、物理仿真、游戏开发等领域提供高保真的3D场景漫游能力。

混元Voyager突破了传统视频生成在空间一致性和探索范围上的局限，能够生成长距离、世界一致的漫游场景，支持将视频直接导出为3D格式。

混元Voyager 3D输入-3D输出的特性，与此前已开源的混元世界模型 1.0 高度适配，可进一步扩展 1.0 模型漫游范围，提升复杂场景的生成质量，并可对生成的场景做风格化控制和编辑。

不仅如此，混元Voyager 还可支持视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多种3D理解与生成应用，展现出空间智能的潜力。

当前，可交互的视频模型已经展现出在世界模型生成上的潜力。然而，实际应用中（如虚拟现实、物理仿真等）通常需要能够建模的显式 3D 场景，纯视频的生成内容很难为用户提供更加真实的交互形式。

另一方面，直接生成3D形式的世界场景，虽具备更好的空间结构的一致性和交互应用的拓展性，却受限于3D训练数据稀缺与3D表征内存效率低下等问题，无法泛化到更多的类别和更大场景中。

混元Voyager框架创新性地将场景深度预测引入视频生成过程，融合了视频生成与3D建模优势，基于相机可控的视频生成技术，从初始场景视图和用户指定相机轨迹中，合成可自由控制视角、空间连贯的RGB-D视频（包含RGB图像和深度信息的点云视频）。