Pyramid-Flow:北大快手等联合推出的开源文生视频AI模型
Pyramid-Flow是什么?
Pyramid-Flow是由快手、北京大学和北京邮电大学联合组建的研究团队推出的开源超高清视频生成模型,该模型能根据文本描述生成最长 10 秒、分辨率高达 1280×768、帧率 24fps 的高质量视频。
Pyramid Flow 文生视频模型主要面向开发者、艺术家和创作者等,提供更高效、更灵活的视频生成解决方案,目前已经在 Hugging Face 平台上线,并完全开源。
Pyramid Flow 的视频示例
Pyramid Flow 的核心特点
- 高效生成:Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一。
- 快速推理:在推理过程中,该模型可以在 56 秒内生成一个 5 秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。
- 开源和商业使用:Pyramid-Flow 在 MIT 许可证下发布,允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。
如何使用Pyramid Flow?
Pyramid Flow发布了论文,开源了代码、模型,提供了在线体验demo:
- Pyramid Flow在线体验demo:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
- Pyramid Flow论文地址:https://arxiv.org/pdf/2410.05954
- GitHub代码:https://github.com/jy0205/Pyramid-Flow;
- Hugging Face模型下载:https://huggingface.co/rain1011/pyramid-flow-sd3
数据评估
关于Pyramid-Flow:北大快手等联合推出的开源文生视频AI模型特别声明
本站做视频AI导航网提供的Pyramid-Flow:北大快手等联合推出的开源文生视频AI模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由做视频AI导航网实际控制,在2024年10月15日 上午10:02收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,做视频AI导航网不承担任何责任。
相关导航
Emu3是智源研究院发布的原生多模态世界模型,该模型只基于下...
Llama 3.2:Meta最新推出的开源模型,包括视觉大语言模型和设备端纯文本模型
Llama3.1是Meta最新推出的开源大语言模型,包括90...
OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵
OpenAIo1是由OpenAI最新发布的人工智能大模型,旨...
Seed-Music:字节跳动推出的AI音乐大模型,支持一键生成高质量歌曲
Seed-Music是由豆包大模型团队自主研发的音乐大模型,...
Qwen2.5:阿里巴巴最新开源的系列AI大模型
Qwen2.5是什么?Qwen是阿里巴巴集团Qwen团队研发...
Mochi 1:Genmo 推出的最新开源视频生成模型
Mochi1是Genmo推出的最新开源视频生成模型,被认为是...
Stable Diffusion 3.5:Stability AI 开源的新一代AI图像生成模型
StableDiffusion3.5是由StabilityA...
Pixtral 12B:Mistral 推出的首款多模态大语言模型,支持下载和微调
Pixtral12B是法国AI初创公司Mistral发布的首...
暂无评论...