Genie-谷歌发布的AI基础世界模型,一张图片生成交互世界
Genie是什么?
Genie是一个由Google发布的根据互联网视频训练的AI基础世界模型,中文意思为“精灵”。它是基于Google DeepMind的最新成果,采用了最先进的视频生成模型的思想,核心设计采用了时空变换器。Genie是第一个通过未标记互联网视频以无监督方式训练的生成式交互环境,能够接收文本提示、合成图像、照片甚至草图或想法,并生成无数种动作可控的、能够互动的虚拟世界环境。
尽管Genie已经展示了其强大的能力,但它目前仍处于研究预览阶段,这意味着它还在不断的开发和完善中,以达到更广泛的应用和更高的性能水平。
了解更多详情:
- 项目地址:https://sites.google.com/view/genie-2024/home
- 论文地址:https://arxiv.org/abs/2402.15391
Genie的模型规模及技术架构
Genie的模型规模及技术架构具有以下特点:
- 模型规模:Genie拥有110亿参数,属于一个大规模的AI模型。这使得它能够处理复杂的数据和生成高质量的交互式虚拟环境。
- 训练数据:Genie通过网络上超过20万小时的2D游戏视频进行训练,这些视频提供了丰富的动作和交互数据,帮助模型学习如何生成和控制虚拟环境。值得注意的是,这一训练过程是在无监督和无标签视频的情况下进行的,展示了模型强大的学习能力。
- 技术架构:
- 基础架构:Genie的底层基于ViT(Vision Transformer),采用了一套内存高效的ST-transformer架构,这包含了时空注意力机制。
- 关键组件:
- 时空视频分词器:用于处理视频数据,将视频分割成可以被模型理解和处理的小块。
- 因果动作模型(LAM,基于像素):这是一个关键的创新点,允许模型学习和推断动作的因果关系,而不仅仅是动作本身。
- 动力学模型(基于视频token):用于理解和模拟物理世界中的动力学行为,如物体的运动和相互作用。
Genie的这一技术架构和模型规模使其成为一个强大的工具,能够生成复杂且高度互动的虚拟世界,为用户提供前所未有的体验,并为AI领域的发展开辟新的可能性。
Genie可以做什么?
- 无需行动标签的学习控制:Genie能够通过分析大量的公开互联网视频学会精细的控制技巧,识别可控制的图像部分,并推断出在各种生成环境中一致的潜在动作。
- 激发新一代内容创作者:Genie为内容创作者提供了新的工具和方法,使得仅需一张图像即可创造出全新的交互环境,降低了创造复杂虚拟环境的门槛。
- 训练通用型AI代理:Genie不仅提供了创造交互式环境的能力,还为AI研究提供了一个有价值的资源,促进了通用型AI代理的发展。
- 跨领域应用:Genie是一个通用方法,适用于多个领域,不需要任何额外的领域知识,其潜在应用范围非常广泛。
Genie适用人群
- 内容创作者和游戏开发者:可以使用Genie快速原型设计和实现他们的创意,通过结合最先进的文本到图像生成模型,创作者可以将文本描述转换成图像,然后使用Genie为这些图像赋予交互性和可玩性。
- AI研究人员:Genie为AI研究提供了一个有价值的资源,通过在不断生成的新世界中训练,未来的AI代理可以在多样化的环境下学习和适应。
- 跨领域专业人士:由于Genie的通用性,它适用于多个领域的专业人士,包括但不限于游戏设计、教育、模拟训练等领域,为他们提供了一个强大的工具来创造和探索虚拟世界。
总之,Genie模型的出现不仅为用户提供了创新的交互体验和内容创作的新方法,也为AI研究和跨领域应用开辟了新的道路,预示着AI技术在生成交互式虚拟环境方面的巨大潜力和未来的发展方向。
数据评估
关于Genie-谷歌发布的AI基础世界模型,一张图片生成交互世界特别声明
本站做视频AI导航网提供的Genie-谷歌发布的AI基础世界模型,一张图片生成交互世界都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由做视频AI导航网实际控制,在2024年3月4日 下午12:56收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,做视频AI导航网不承担任何责任。
相关导航
Stable Diffusion 完全免费开...
金蝶云·苍穹GPT
金蝶云·苍穹GPT是由国内ERP龙...
百川大模型
大模型融合了意图理解、信息...
云知声-山海大模型
山海大模型是最新一代认知智...
AgentVerse-一个用于搭建多智能体交互平台的框架
AgentVerse 提供了一个多功能...
序列猴子-出门问问多模态大模型
“序列猴子”是一款由出门问问...
BangChat-创业邦推出的创投大模型
BangChat 使用 AI 大模型,基...
MuseV-腾讯天琴实验室开源的虚拟人视频生成框架
MuseV专注于生成高质量的虚拟...
暂无评论...