彩票走势图

谷歌,暗搓搓发了一个“游戏版sora”
2024-12-09 19:12

谷歌,暗搓搓发了一个“游戏版sora”

本文来自微信公众号:,作者:Xin Ling,编辑:靖宇,题图来自:AI生成

文章摘要
Google DeepMind发布Genie 2,生成交互式3D场景

• 🎮 提供可供AI训练的动态3D游戏环境

• 🌟 支持复杂物理模拟和互动行为

• 🚀 推动3D AI在多个领域的应用创新

游戏世界可能要变天了。


继李飞飞空间智能发布“图片生成3D世界”的AI系统后,当地时间12月5日,Google DeepMind推出了其最新的基础世界模型——Genie 2,同样是通过一张图像或文字描述,就可以生成可供人类或AI智能体游玩的3D场景。相比李飞飞的发布效果,Genie 2增加了更复杂的交互功能。


Google介绍称,用户只需提供一张由Imagen 3生成的图像和相应的文字描述,Genie 2便能生成一个可交互的3D环境,用户可以通过鼠标和键盘在其中自由探索,最长可持续一分钟。该模型具有“扩展场景”的能力,不仅能够保持生成环境的一致性,还能在用户移动时准确呈现视野中消失的部分。


Google DeepMind在官网展示了一系列效果动图,进一步说明Genie2在生成过程中能够模拟物体交互、动画、逼真的光照、物理反射效果,以及NPC的行为,许多生成的场景画质接近3A级别的游戏,甚至在物体视角一致性和空间记忆方面表现优异,具有模拟物理法则的能力。


这些能力堪称震撼,因为目前要达到如此效果仍需游戏开发配合美术花费大量时间才能完成。网友惊呼,这次发布进一步模糊了物理世界和数字世界的界限,让人们看到了如“头号玩家”般世界模型的未来。


通过游戏,生成无限的交互式世界


图片来源:Google DeepMind官网


几十年来,游戏一直是人工智能研究的基石。游戏的沉浸感和可控性,以及它们所带来的可衡量的挑战,为测试和推进人工智能提供了理想的环境。从人工智能发展初期掌握Atari游戏,到AlphaGo在围棋中取得的改变世界的胜利,再到AlphaStar在星际争霸II中的统治地位,DeepMind不断展示游戏作为人工智能试验场的潜力。


然而,在训练通用具身代理(能够以多种方式学习与物理和虚拟世界互动的人工智能)方面,一直面临着一个重大障碍,那就是缺乏多样化的训练环境


传统的训练工具无法提供足够的多样性和深度,因此也无法让人工智能代理充分感知现实世界的复杂性。Genie 2旨在通过游戏生成无限的交互式世界来解决这一问题。


Genie 2的与众不同之处,在于它能够按需创建高度可定制的游戏。简单输入图像作为提示,系统便创建出可玩的世界,以适应特定的训练或游戏需求。这种灵活性让人工智能研究人员能够使用代理迎接永无止境的挑战,帮助他们培养可转移到现实世界场景中的技能。这有可能彻底改变开发者测试和改进AI系统的方式,让人们利用AI更好地释放自身的创造力。


通过使用Genie 2快速创建丰富多样的环境,研究人员可以生成在训练过程中未曾见过的评估任务。例如,Google展示了一个与游戏开发者合作开发的SIMA代理的示例,该代理能够根据一张单独的图像提示,来合成并执行在之前未曾见过的环境中的指令。



图像由Imagen 3生成,prompt:“第三人称开放世界探索游戏的截图。玩家扮演一名正在探索森林的冒险者。左边有一栋房子,门是红色的,右边有一栋房子,门是蓝色的。摄像机位于玩家正后方。


SIMA代理旨在通过遵循自然语言指令来完成一系列3D游戏世界中的任务。在这里,Google使用Genie 2生成一个有两扇门(一扇蓝门和一扇红门)的3D环境,并向SIMA代理通过键盘和鼠标输入“打开红门”或“打开蓝门”的指令,便可控制角色做出相应动作。


此外,Genie 2还可以:


智能地响应键盘上的按键所采取的操作;

从同一起始框架生成不同的轨迹;

记住曾经生成过的内容,具有空间上下文;

在长达一分钟的时间里保持世界一致性;

创建不同风格的世界,比如第一人称或者卡通风格;

支持创建复杂的3D结构视觉场景;

支持模拟物理交互,气球爆炸、射击炸药桶等;

学习了如何为执行不同活动的各种类型的角色制作动画;

与其他智能体甚至和它们的复杂交互进行建模;

进行强大的物理特性模拟:流体、烟雾、重力、光照、反射;

支持从现实世界的图像进行生成。


Genie 2最令人兴奋的意义之一,是它能够促进一般代理的训练。与擅长单一任务(例如下棋或回答琐事)的专业代理不同,一般代理可以适应各种各样的挑战,就像人类在现实世界解决各种问题一样。通过将这些代理暴露在新环境中,Genie 2使它们能够应对复杂的现实世界场景,在这些场景中,适应性和多功能性至关重要。


虽然这项研究仍处于早期阶段,代理和环境生成能力都还有很大的改进空间,但毫无疑问,Genie 2是解决安全训练具体代理的结构性问题的途径,同时展现了迈向AGI所需的广度和通用性的可能性。


除了推动AI研究的发展,Genie 2还为游戏开发和交互式原型设计的工作提供了新的想象空间。对游戏开发人员,尤其独立开发者来说,他们可以使用Genie 2快速创建独特、可玩的体验,从而减少传统设计流程的时间和成本。Genie 2对游戏开发的价值如此显而易见,在Genie 2发布后,DeepMind CEO在“X”上热情邀请马斯克一起制作AI游戏,马斯克则回复:“Cool”。


对于游戏玩家来说,Genie 2背后的技术预示着,未来的游戏环境将比以往任何时候都更加动态、个性化和身临其境。想象一下,视频游戏可以实时适应玩家的技能水平或偏好,提供真正量身定制的体验。实现“头号玩家”的未来世界也许离我们越来越近了。


甚至,Genie 2的影响远远超出了游戏领域。


Genie 2可以作为虚拟现实、模拟和机器人技术创新的平台。例如,机器人可以在Genie 2生成的游戏环境中进行训练,学习如何在陌生的地形上导航或以新的方式与物体互动。同样,虚拟助手也可以通过在这些环境中练习来提高理解和响应现实世界任务的能力。这大概也是Google DeepMind在介绍Genie 2时的定位,是“基础世界模型”,而非仅仅是“游戏生成模型”的原因


解锁3D叙事,或成为技术革命新纪元


李飞飞在“X”公布“图片生成3D世界”的AI系统时,没有对背后的技术原理做相应说明。导致网友们一边惊叹技术能力之精湛,一边遗憾无法探究其背后原理。


在Google DeepMind官网,Google对Genie 2背后原理简单介绍为“是一个自回归潜在扩散模型,在大型视频数据集上进行训练”,并用超链接的方式引用了相关论文。笔者对该介绍进行了简单分析与理解,原理大概如下:


图片来源:Google DeepMind官网


Genie 2是一种自回归扩散模型,通过分析大量的视频数据,学习如何生成视频内容。具体来说,是通过自动编码器和大型transformer动态模型的共同协作,使Genie 2能够从原始视频中提取关键信息,并通过深度学习模型生成更新的视频场景。


首先,Genie 2使用一个叫做自动编码器的工具来提取视频中的重要信息。通过自动编码器,视频帧中的关键特征被压缩成一种简化的形式,称为“潜在帧”。可以把这个过程比作将每一帧视频压缩成一个更小的数据包,保留其中信息量最大的部分。这些“潜在帧”并不是完整的视频内容,而是对视频中最重要元素的高度抽象和简化。


接下来,这些“潜在帧”会被输入到大型transformer动态模型中。该模型通过“因果掩码”技术来学习视频中帧与帧之间的关系。“因果掩码”帮助模型理解帧之间的顺序,使得视频内容能够连贯流畅。例如,模型能够学习到一个动作是如何从一个帧平滑过渡到下一个帧一帧的,确保视频的动态变化变焦不会突兀。


在视频生成的过程中,Genie 2采用了一种称为自回归采样的方法。这意味着它不会一次性生成整个视频,而是逐帧生成,每一帧都依赖于前一帧的信息来决定下一帧的内容。这种方法保证了视频的连续性,使得每个画面都自然地衔接在一起,从而提升了视频的真实感和流畅度。


另外,Genie 2还引入了一种名为无分类指导的技术,用于提高生成动作的可控性。通过这种技术,Genie 2在生成视频时,可以更加精确地控制视频中的动作和场景,减少了生成过程中可能出现的不确定性或不连贯的动作,从而增强了对视频内容的可控性。


随着全球科技巨头纷纷将目光投向AI与物理世界的融合,我们正站在一个新的技术革命的门槛上。虽然在步伐上看似慢于问答型AI如ChatGPT的进化速度,但3D AI的发展预示着更广阔的应用前景。


正如李飞飞的ImageNet项目曾引领计算机视觉领域的AI创业浪潮,3D AI技术如今可能正掀起一场规模更大的革命。它不仅将推动技术的进步,更将深刻改变我们与世界的互动方式,从机器人技术到自动驾驶汽车,从虚拟现实到城市规划,3D AI的应用潜力无限。


因此,我们可以预见,3D AI将开启一个充满创新与机遇的新时代。它将不仅仅是技术的迭代,更是对人类生活方式的一次深刻重塑,推动我们进入一个更加智能、更加互联的世界。


本文来自微信公众号:,作者:Xin Ling,编辑:靖宇

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@iyeaao.cn
如对本稿件有异议或投诉,请联系tougao@iyeaao.cn
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定