赞助商

Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界

1年前更新 396 00

Genie是由谷歌发布的根据互联...

收录时间：

2024-03-04

打开网站手机查看

AI大模型

Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界

打开网站

Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界

Genie是什么？

Genie是一个由Google发布的根据互联网视频训练的AI基础世界模型，中文意思为“精灵”。它是基于Google DeepMind的最新成果，采用了最先进的视频生成模型的思想，核心设计采用了时空变换器。Genie是第一个通过未标记互联网视频以无监督方式训练的生成式交互环境，能够接收文本提示、合成图像、照片甚至草图或想法，并生成无数种动作可控的、能够互动的虚拟世界环境。

尽管Genie已经展示了其强大的能力，但它目前仍处于研究预览阶段，这意味着它还在不断的开发和完善中，以达到更广泛的应用和更高的性能水平。

了解更多详情：

项目地址：https://sites.google.com/view/genie-2024/home
论文地址：https://arxiv.org/abs/2402.15391

Genie的模型规模及技术架构

Genie的模型规模及技术架构具有以下特点：

模型规模：Genie拥有110亿参数，属于一个大规模的AI模型。这使得它能够处理复杂的数据和生成高质量的交互式虚拟环境。
训练数据：Genie通过网络上超过20万小时的2D游戏视频进行训练，这些视频提供了丰富的动作和交互数据，帮助模型学习如何生成和控制虚拟环境。值得注意的是，这一训练过程是在无监督和无标签视频的情况下进行的，展示了模型强大的学习能力。
技术架构：

基础架构：Genie的底层基于ViT（Vision Transformer），采用了一套内存高效的ST-transformer架构，这包含了时空注意力机制。
关键组件：
- 时空视频分词器：用于处理视频数据，将视频分割成可以被模型理解和处理的小块。
- 因果动作模型（LAM，基于像素）：这是一个关键的创新点，允许模型学习和推断动作的因果关系，而不仅仅是动作本身。
- 动力学模型（基于视频token）：用于理解和模拟物理世界中的动力学行为，如物体的运动和相互作用。

Genie的这一技术架构和模型规模使其成为一个强大的工具，能够生成复杂且高度互动的虚拟世界，为用户提供前所未有的体验，并为AI领域的发展开辟新的可能性。

Genie可以做什么？

无需行动标签的学习控制：Genie能够通过分析大量的公开互联网视频学会精细的控制技巧，识别可控制的图像部分，并推断出在各种生成环境中一致的潜在动作。
激发新一代内容创作者：Genie为内容创作者提供了新的工具和方法，使得仅需一张图像即可创造出全新的交互环境，降低了创造复杂虚拟环境的门槛。
训练通用型AI代理：Genie不仅提供了创造交互式环境的能力，还为AI研究提供了一个有价值的资源，促进了通用型AI代理的发展。
跨领域应用：Genie是一个通用方法，适用于多个领域，不需要任何额外的领域知识，其潜在应用范围非常广泛。

Genie适用人群

内容创作者和游戏开发者：可以使用Genie快速原型设计和实现他们的创意，通过结合最先进的文本到图像生成模型，创作者可以将文本描述转换成图像，然后使用Genie为这些图像赋予交互性和可玩性。
AI研究人员：Genie为AI研究提供了一个有价值的资源，通过在不断生成的新世界中训练，未来的AI代理可以在多样化的环境下学习和适应。
跨领域专业人士：由于Genie的通用性，它适用于多个领域的专业人士，包括但不限于游戏设计、教育、模拟训练等领域，为他们提供了一个强大的工具来创造和探索虚拟世界。

总之，Genie模型的出现不仅为用户提供了创新的交互体验和内容创作的新方法，也为AI研究和跨领域应用开辟了新的道路，预示着AI技术在生成交互式虚拟环境方面的巨大潜力和未来的发展方向。

数据评估

Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界浏览人数已经达到396，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站做视频AI导航网提供的Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由做视频AI导航网实际控制，在2024年3月4日下午12:56收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，做视频AI导航网不承担任何责任。

做视频AI导航网致力于优质、实用的网络站点资源收集与分享！本文地址https://www.zuoshipin.com/sites/11652.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界

Genie是什么？

Genie的模型规模及技术架构

Genie可以做什么？

Genie适用人群

数据评估

相关导航

扁鹊生活空间健康大模型

云知声-山海大模型

ReSyncer – AI驱动的高精度口型同步工具

CogAgent-可免费商用的带 Agent 能力的视觉模型

PowerLawGLM

AgentGPT- 浏览器端自主AI代理部署平台

奇智孔明 AInnoGC-创新奇智发布的工业大模型

GPT-4o mini：OpenAI高效能AI模型

暂无评论