Midjourney V7重磅上线,硬刚GPT-4o强强对决!AI生图王者争霸实测来袭
️️新智元报道
编辑:犀牛 定慧
️【新智元导读】Midjourney V7 Alpha来了,带着「最聪明、最美丽」的承诺和让人惊叹的「草稿模式」。本文将通过未编辑的图片并排对比V7、V6和GPT-4o,深入剖析V7的个性化设置和语音控制功能。
所有人的注意力都被即将到来的新模型所吸引,除非V7有一些实质性的提升,否则AI在生图上的故事要翻篇了。
V7 Alpha是否带来了革命性的变化,还是针对GPT4o生图迫不得已的出手?
最聪明美丽的版本!「草稿模式」可语音控制
V7版本确实很能打,Midjourney称V7 Alpha版本是最聪明、最美丽、最连贯的模型。光说不练假把式,先来看看网友用V7创作的作品,整体感受一下这个模型。网友@IterIntellectus认为gpt4o很棒,但只是个玩具,V7是另外一回事,绝对令人难以置信。他用V7创作了四个不同风格的作品,印象派风格、暗黑奇幻风格、古典主义巴洛克雕塑风格和日系漫画风,最后漫画风里的「五条悟」和动画里的一模一样。
网友@PJaccetturo没有使用任何参考资料,只是提供简单的提示「村庄、备战、武士」,就可以生成电影级别的镜头图片。
网友@doganuraldesign和@ai_for_success用V7制作的人物肖像,几乎以假乱真,你能分辨出这是AI生成还是真人吗?
网友@8co28用V7制作了动画的分镜草稿,这些草稿的精美程度可以用来直接制作动画了。
效果确实很惊艳,Midjourney强调这次V7有两大更新:
V7是第一个️默认开启模型个性化设置的模型。
什么意思?就是在生成图像前,必须解锁个性化设置才能使用。这大约需要5分钟。相当于更好的「定制化」,让模型提前了解用户的喜好和审美。
另一个是「草稿模式」,被V7称为旗舰功能。
草稿模式的价格只有标准模式的一半,渲染图片的速度却快了10倍。它的速度快到你可以通过对话来控制它。
点击「草稿模式」,再点麦克风按钮,就能开启「语音模式」——你可以大声思考,图像就像流动的梦境一样在你眼前生成。
比如像这样让猫咪吃草莓。
草稿模式的图像质量低于标准模式,但两者的绘画行为和美学非常一致。
可以使用各种语言跟它对话,快速将创意变成现实。
以下视频是草稿模式下可能实现的效果预览,可以通过和模型「对话」来共同创作,看起来是很梦幻的交互形式。
V7 Alpha后的路线图:预计在接下来的 60 天内,每隔一到两周就会有新功能推出。
谁能定义AI视觉的未来,V7 、V6 、GPT4o谁更强?
V7的效果确实很棒,但是每个产品发布前,都免不了会在社交媒体上炒作一番。如何确定V7很强,当然是和别的模型比较一下。网友@Zapidroid使用相同的提示词,并排图像比较了相同提示词下,V6、V7和GPT-4o的效果。他认为GPT4o依然更胜一筹。以下为相同提示词的生成效果,图片从左到右依次为V6、V7和GPT-4o生成的图像。你认为哪个模型更好?欢迎在评论区讨论。
A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.
一位留着深色头发、扎着开放式马尾辫、身穿黑色夹克的印度年轻女子站在大学校园里,直视镜头,画面有90年代风格的电影依然唯美,还有一张阳光明媚的日子里的特写肖像。
A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.
一只雄伟的谷仓猫头鹰栖息在一根古老的苔藓覆盖的树枝上,周围是迷蒙的森林。场景沐浴在柔和的光线中,透过茂密的树叶过滤,营造出一种神奇而空灵的氛围。写实风格,注重羽毛和纹理的细节。
A person's hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.
一个人的手指向飞机的窗户,从里面可以看到飞机的机翼。外面的天空在黎明或黄昏时显示出清晰的地平线。在他们面前是一片广阔的海洋。
Close-up of an anime woman's face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.
动漫女性面部特写,表情震惊,深色头发,动漫风格。彩色动画剧照,特写强度,柔和的灯光,低角度相机视图,高细节。
A close-up of broccoli being sautéed in oil, with the vegetable's green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white background.
花椰菜在油中炒的特写镜头,蔬菜的绿色小花与深棕色酱汁形成对比。一个不锈钢锅里部分可见一个大勺子,上面装满焦糖和闪亮的黑色釉,背景是白色的。
A wide image taken with the phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt with a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.
在俯瞰海湾大桥的房间里,用手机用玻璃白板拍摄的一张宽照片。视野显示一个女人在写作,穿着一件印有大OpenAI标志的t恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。
看完以上对比后,你认为哪个模型更好?
虽然无法下论断V7和GPT4o谁更强,但是V7确实要比V6版本优化不少。
当然,也有人对V7的一些效果提出了质疑,比如图片生成中一个重要的考点「文字生成」。
网友@sleone_76尝试使用Midjourney v7和ChatGPT-4执行相同的提示,Midjourney V7的文字生成仍然完全失败。
sleone_76说他很失望,对于一个专门从事图像创作并承诺使用V7可以更好地生成文本的团队来说,这应该是最基本的要求。
Midjourney V7的推出无疑为已经够火的图像生成赛道又添了把火。
不管是通过对话实现创意想法的「草稿模式」还是可以个性化定制的智能美感,都展现了V7的强大实力。
但将其与GPT-4o放在一起同台竞技时,它并未「遥遥领先」。尤其是文字生成等短板依然刺眼。
不过,Midjourney承诺未来60天将会有新功能放出,不知道那时它是否会重回文生图领域的王者。
参考资料:
https://twitter.com/Zapidroid/status/1908058828295250205
https://twitter.com/doganuraldesign/status/1908061707160924593
https://www.midjourney.com/updates/v7-alpha