PixArt-华为发布的AI图像生成模型,支持生成4K图像
PixArt是什么?
PIXART-Σ 是一个由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发的扩散变换器模型(DiT),专门用于4K分辨率的文本到图像生成。这个模型在前身 PixArt-α 的基础上进行了显著的改进,提供了更高保真度的图像和更好的文本提示对齐。
PixArt的主要特性
PIXART-Σ 的关键特点包括:
- 高质量训练数据:PIXART-Σ 整合了更高质量的图像数据,并与更精确、详细的图像标题配对。
- 高效的令牌压缩:提出了一种新的注意力模块,用于在 DiT 框架内压缩键和值,显著提高了效率,并促进了超高分辨率图像的生成。
- 较小的模型大小:PIXART-Σ 拥有0.6B参数,比现有的文本到图像扩散模型(如SDXL的2.6B参数和SD Cascade的5.1B参数)更小,但仍然能够实现卓越的图像质量和用户提示的遵循能力。
- 4K图像生成能力:支持创建高分辨率的海报和壁纸,有效地支持电影和游戏等行业高质量视觉内容的生产。
PIXART-Σ 的这些进步使其成为一个强大的工具,适用于需要高质量视觉内容生成的应用场景。研究团队还提供了相关的代码和演示,以便其他研究人员和开发者可以进一步探索和利用这个模型。
如何使用PixArt?
- 项目地址(含体验地址):https://pixart-alpha.github.io/PixArt-sigma-project/
- 论文地址:https://arxiv.org/abs/2403.04692
- GitHub:https://github.com/PixArt-alpha/PixArt-sigma
数据评估
关于PixArt-华为发布的AI图像生成模型,支持生成4K图像特别声明
本站做视频AI导航网提供的PixArt-华为发布的AI图像生成模型,支持生成4K图像都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由做视频AI导航网实际控制,在2024年3月18日 下午11:26收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,做视频AI导航网不承担任何责任。
相关导航
百度旗下“灵医智惠” 是百度推...
阅文妙笔大模型:国内首个网文大模型
在 7 月 19 日举行的阅文创作...
CodeGeeX:国产开源代码生成模型
CodeGeeX可以根据自然语言注...
商汤科技-日日新大模型
日日新SenseNova大模型体系,...
BenTsao本草-中文医学大模型
一个经过中文医学指令微调的 ...
讯飞星火认知大模型
以中文为核心的新一代认知智...
Mora-微软等推出的多智能体视频生成框架
Mora是一个多智能体视频生成...
Stable Code Instruct 3B:Stability AI推出的代码语言模型
Stable Code Instruct 3B是St...
暂无评论...