文/VR陀螺
“如果(AI)生成的视频不仅能看,还能探索呢?”
谷歌DeepMind于8月5日发布了一个全新AI模型Genie 3,他们在社交媒体上发布的演示视频引发人们对AI世界模型广泛讨论。
具体来说,Genie 3是AI世界建模系统,它最大的亮点在于其可以根据简短文本提示实时生成可探索和编辑的3D虚拟场景。该模型支持24帧实时流传输,可记忆1分钟内的物体状态,并支持用户或AI智能体触发提示的文本事件,例如即时天气变化或新角色加入,保持沉浸感。
这项技术革新将帮助开发者、研究人员和省去手动制作资产的麻烦,在数秒内完成高保真的交互式模拟原型构建。
提及世界模型,很多人都会想起去年OpenAI发布Sora时的火爆,同样也能提供一段文字或图片,就能通过AI生成一段高清且有电影感的短视频。Sora作为一个AI视频制作工具让不少人看到了“会自主理解”的世界模型雏形。
对比其他大模型,世界模型的研究进展相对缓慢,它需要完成即时计算,用户所操作的任意一个动作都可能会影响到模型接下来会生成的内容。AI要做的不只是识别用户提供的文本或图片,还要有记忆,通过大量的视频数据训练来预判用户的交互操作并通过AI来模拟现实世界的物理特性、动态变化和因果规律等等。
Meta首席AI科学家Yann LeCun认为世界模型与其他AI模型的区别在于:
世界模型是一种现实的抽象数字孪生,AI可以参考它来理解世界并且预测自身行为的后果,与理解语言不同的是,世界模型让机器能够理解物理世界并且能够规划行动路线来完成任务而无需进行数百万次的试验,因为世界模型提供了对世界运行方式的基本理解。
这种推理和规划的能力将会带来广泛的影响,比如它可以用来帮助视障人士、在MR中为复杂的任务提供指导、让教育变得更加个性化,甚至可以理解代码对程序状态和外部世界的影响。此外,世界模型对于自动驾驶汽车和机器人等自主系统也至关重要,它将开启机器人技术的新纪元,让现实世界中的AI Agent能够在不需要大量机器人训练数据的情况下帮助完成家务和体力劳动等任务。
世界模型至今仍是一个宽泛的概念,科技巨头们对它也有不同的理解和研发方向。
World Labs(李飞飞)——大型世界模型:输入一张图片或文本描述,即可生成完整的、遵循基本物理规则的3D世界,目的是创建一个超越平面像素、跨越语言障碍、能够真正捕捉3D世界结构和空间智能的世界模型。
英伟达——Cosmos世界模型:它能根据提示生成出各种高仿真物理世界,用来训练机器人和自动驾驶系统。
Meta——V-JEPA 2世界模型:这是基于视频训练的世界模型,它能实现在新环境中进行零样本规划和机器人控制。V-JEPA 2改进了动作预测和世界建模功能,使机器人能够与不熟悉的物体和环境交互以完成任务。
腾讯——混元3D世界模型1.0:这是开源的可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。
昆仑万维——Matrix-Game 2.0:可保持对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境,该模型已全面开源。
这些只是研发世界模型的企业中的一部分,各大科技巨头正从不同维度构建世界模型的形态,展现出世界模型在实时交互方面的巨大潜力,尽管距离真正实现完全符合现实物理规律、高度自主交互的理想状态还有一定差距,世界模型还是为游戏开发、XR交互、模拟训练等领域的落地提供了具象化参照。
Genie 3的发布意味着AI的能力已经从“内容生成”跨越到“世界模拟”,它的进步具体表现在哪些方面?
2024年2月,DeepMind发布了Genie 1,从最初的项目介绍来看,这是一个通过互联网视频训练的基础世界模型,它可以通过合成图像、照片甚至草图生成无数种可玩(可控制动作)的世界。据称可适用于任何类型的领域且并不局限于所呈现的2D平台游戏和机器人技术。
以2D平台游戏训练为主,早期还很粗糙且模糊的Genie 1
2024年12月,Genie 2就已经能生成无限多样、可操作、可游玩的3D环境了。DeepMind认为,游戏在AI研究领域扮演着关键角色。游戏沉浸感的特性、独特的挑战任务以及可衡量的进度,使其成为安全测试和提升AI能力的理想环境,Genie 2有了更多适用场景。
Genie 2的3D游戏世界更加逼真,同一起始帧可以生成不同的轨迹
直到今年8月,Genie 3离通用人工智能 (AGI) 更进一步。基于AI物理学的实时交互世界,可控性和实时交互性的提升,Genie 3还能保持视觉记忆与场景一致性。所显示的内容都是根据这个虚拟世界的描述词和用户操作逐帧创建的。
Genie 2与Genie 3的对比
Genie 3发布后,谷歌DeepMind首席执行官Demis Hassabis在新的采访视频中提到了对Genie 3和世界模型的看法(以下为采访内容节选):
Genie是几个研究项目和各种想法的汇集成果。我们将棋盘游戏作为一个具有挑战性的领域,来改进AI算法。我们过去常常利用电脑游戏和3D游戏引擎构建的传统模拟环境来测试,并用来创建合成数据。
因为我们想建立一个所谓的能真正理解物理世界的“世界模型”。它需要理解物理结构、事物的运作方式、材料和液体,甚至是各种生物和人类的行为,这些都是我们所处的物理世界的重要组成。要实现AGI需要先理解物理世界。
阻碍机器人技术发展的原因之一是世界模型的不成熟。像我们的Gemini Live项目Astra,可以拥有一个在日常生活中协助用户的通用AI助手,它能够在你的手机或眼镜上,即便是这样,AI助手也需要理解你所处的时空环境。
测试世界模型的有效性和深度最好的方法之一就是让它反向生成世界的内容。就像打开水龙头,是否会有液体流出;或者在一面镜子前,是否能看到自己的倒影。这也是Genie的目标:构建世界模型,然后将它表达出来,并且真正生成具有一致性的世界。在未来,Genie 3以及后续版本的世界模型可能会在介于电影和游戏之间,开创一种全新的娱乐类别。
初看Genie 3的演示时,便能直观感受到它对“核”类游戏的适配性。如今像《后室》这类第一视角的池核、梦核风格游戏越来越多,这类作品大多不以叙事为核心,少部分会融入互动解谜要素,更多时候以“探索体验”为主。近乎真实的视觉效果,以及充满不确定性的荒诞、复古、混乱的复杂感受与尚未成熟的世界模型或是AIGC内容的“抽象”相得益彰。
今年更新免费PC VR模式的池核游戏《Pools》
除了适配这类风格化游戏,Genie 3 的潜力还体现在对复杂内容的“实时转化”上。
再想象一下,只需使用键鼠,就能通过Genie 3把《权力的游戏》、整部电视剧、原著书籍以及所有传说故事输入到系统中,实时创建这个西幻世界,然后戴上VR设备,就能进入他们的生活和冒险中。又或是与好友一起跑团玩TRPG游戏,只需要输入“充满熔岩的丛林神庙”就能获得一个可玩且持久的3D世界,NPC也能自由交流……这就像是打破了第四面墙,人人都是造梦建筑师。
若是将Genie 3接入谷歌的XR硬件,即可构建一个可实时交互的虚拟世界,用户可以通过虚拟形象探索互动。虽然Genie 3目前尚无法精准复现现实世界的空间位置,但谷歌的3D地图数据或许能成为重要支撑。
对开发者来说,Genie 3的交互反馈来自于AI训练过程中构建的底层世界模型,而非预先编程。普通开发者往往需耗费数月,才能完成单一物理维度的模拟实现;而Genie 3将物理AI从底层融入系统,从根本上改变了这一模式。
如果将Genie 3应用到XR内容,理论上是可行的,但以现今版本的Genie仍面临多重挑战。一是技术参数限制,Genie 3现在24fps、720p的运行质量只能保持几分钟的一致性,这对玩家来说还远不及预期;二是交互需求升级,XR内容需要支持6DoF头显和手柄或是动捕设备等输入方式;三是体验完整性不足,记忆能力有待提高且难以模拟多智能体复杂交互。
首个被邀请测试Genie 3的YouTube博主Tim Scarfe亲自体验后震惊于这项令人叹为观止的技术,他认为:“这项技术可能成为下一个万亿美元的产业,也可能成为VR的杀手级应用。”
Genie 3的出现,无疑为游戏与XR内容领域打开了新的想象空间。随着DeepMind对相关技术难点的持续攻克,或将推动世界模型的愿景向现实更进一步。
参考链接:
https://www.youtube.com/watch?v=njDochQ2zHs
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息