12月21日,Midjourney 在Discord上宣布其最新版本V6的测试版发布。该模型经过了9个月的训练,虽然缺乏明确的benchmark比较,就目前网友测试展现出来的能力来看,它可以被称为当下最先进的文生图模型。
体验地址:https://www.aimmp.com
先总结一下本次核心升级的点,特别是跟上一版V5的对比:
1.改进升级器,分辨率提高2倍2.更准确的提示跟随以及更长的提示,支持300个字符以上3.提高连贯性和模型知识,更懂你的描述语义4.改进的图像提示和重新混合
5.较小的文本绘制能力,支持图片+文字生成简单总结就是,容纳更多词语、语义理解和生图能力更强、允许对图像进行更多个性化的设计、具备轻微的文本绘制能力,分辨率增加一倍等等。
从图片质量上看,Midjourney V6 和以往相比,有了飞跃式的提升。下面是 V5 和 V6 图的对比,可以发现 V6 生成的图片在材质质感、光影表现、结构真实性上都很不错。
一、相较于V5.2,V6的图像确实更偏向于丰富和细腻逼真
V6的图像生成能力确实有明显的提升。相较于V5.2,V6的图像确实更偏向于丰富和细腻逼真。V5.2其实从细节度上来讲已经可以到“乱真”的程度了,但V6的感觉是“真”,而非“仿真”。提示词对的话,结果甚至有一种相机直出的真实质感。
比如这两盘土豆炖牛肉,明显V6版本的会更让人有食欲。
a pot of stew with a wooden spoon, top-down perspective
下面来一组侏罗纪时代,人类驱逐霸王龙科幻大片图,细节丰富,真实感十足。
Cinematic film still of a T-rex being attacked by an apache helicopter, flaming forest, explosions in the background
下图古罗马集市的场景细节丰富,人物角色清晰,高度还原。
35mm film still of an ancient Roman marketplace during the day. People in traditional Roman attire are bartering goods, there are stalls with fruits, vegetables, and pottery, and in the background, the Colosseum is visible.
二、当前版本在提示里可以指定多个主题/颜色和其他细节。在准确遵循提示这点上,从网友测试来看提升也很明显
一名20岁的阿拉伯妇女,戴着辫子,戴着手套,穿着拳击服,微笑着
来一组非洲大草原的狮子家族,落日,草地,小狮子凝思的表情,细节太丰富了。
documentary photography of a lion family in the African savannah at sunset. The scene includes a male lion, a lioness, and their cubs. The background features acacia trees and a setting sun三、现在V6对文字的处理正确率大幅提高,而且嵌入感也更好,文本绘制能力提升,然而悲报是英文之外还是鬼画符。但它已经能够完全进行复核画面的风格化文字创作了。
将文字绘制到图片上的能力大大提升!
a corner bar with a neon sign that says “open late”
另一个例子中,可口可乐的字体被完全完美还原。文字完美贴合画面风格。设计师最后的阵地有点守不住了。
可口可乐广告,以传统夏威夷图案的饮料罐设计为特色
四、人像方面,其实V5已经做到相当还原了
但在V6中,脸上的小疙瘩,帽檐上的褶皱与污迹,鼻子上紧贴弧线充满变化的光影让V5.2的照片看起来更像是美颜过的,太平面了。就算同样是雀斑,V6的表现也更让人信服,充满符合人体呈现的集中性,而非平铺感。
An extreme closeup shot of an old coal miner, with his eyes unfocused, and face illuminated by the golden hour
A closeup shot of a beautiful teenage girl in a white dress wearing small silver earrings in the garden, under the soft morning light
45-year-old silver-haired female chef standing in the bustling kitchen of a vintage-style restaurant, looking out of a small round window at the busy city street, freshly baked bread on a wooden table in front of her
在公告中,Midjourney表示:
• V6 对提示现在更敏感。别再用像 “令人印象深刻的,逼真的,4k,8k”这样的无用词汇了。
• 明确表达你想要的。虽然它可能没那么有意思,但当你明确表达时,它就能在理解你的意图这方面做得更好。
来一组星际科幻大片案例图:
A dynamic film still of an epic space battle with sleek starfighters zooming past a massive space station, lasers firing, and a distant planet visible in the backdrop