Midjourney V7重磅上线，硬刚GPT-4o强强对决！AI生图王者争霸实测来袭

2025-04-05ASPCMS社区 - fjmyhfvclm

️️新智元报道

编辑：犀牛定慧

️【新智元导读】Midjourney V7 Alpha来了，带着「最聪明、最美丽」的承诺和让人惊叹的「草稿模式」。本文将通过未编辑的图片并排对比V7、V6和GPT-4o，深入剖析V7的个性化设置和语音控制功能。

所有人的注意力都被即将到来的新模型所吸引，除非V7有一些实质性的提升，否则AI在生图上的故事要翻篇了。

V7 Alpha是否带来了革命性的变化，还是针对GPT4o生图迫不得已的出手？

最聪明美丽的版本！「草稿模式」可语音控制

V7版本确实很能打，Midjourney称V7 Alpha版本是最聪明、最美丽、最连贯的模型。光说不练假把式，先来看看网友用V7创作的作品，整体感受一下这个模型。网友@IterIntellectus认为gpt4o很棒，但只是个玩具，V7是另外一回事，绝对令人难以置信。他用V7创作了四个不同风格的作品，印象派风格、暗黑奇幻风格、古典主义巴洛克雕塑风格和日系漫画风，最后漫画风里的「五条悟」和动画里的一模一样。

网友@PJaccetturo没有使用任何参考资料，只是提供简单的提示「村庄、备战、武士」，就可以生成电影级别的镜头图片。

网友@doganuraldesign和@ai_for_success用V7制作的人物肖像，几乎以假乱真，你能分辨出这是AI生成还是真人吗？

网友@8co28用V7制作了动画的分镜草稿，这些草稿的精美程度可以用来直接制作动画了。

效果确实很惊艳，Midjourney强调这次V7有两大更新：

V7是第一个️默认开启模型个性化设置的模型。
什么意思？就是在生成图像前，必须解锁个性化设置才能使用。这大约需要5分钟。相当于更好的「定制化」，让模型提前了解用户的喜好和审美。
另一个是「草稿模式」，被V7称为旗舰功能。
草稿模式的价格只有标准模式的一半，渲染图片的速度却快了10倍。它的速度快到你可以通过对话来控制它。

点击「草稿模式」，再点麦克风按钮，就能开启「语音模式」——你可以大声思考，图像就像流动的梦境一样在你眼前生成。

比如像这样让猫咪吃草莓。

草稿模式的图像质量低于标准模式，但两者的绘画行为和美学非常一致。

可以使用各种语言跟它对话，快速将创意变成现实。

以下视频是草稿模式下可能实现的效果预览，可以通过和模型「对话」来共同创作，看起来是很梦幻的交互形式。

V7 Alpha后的路线图：预计在接下来的 60 天内，每隔一到两周就会有新功能推出。

谁能定义AI视觉的未来，V7 、V6 、GPT4o谁更强？

V7的效果确实很棒，但是每个产品发布前，都免不了会在社交媒体上炒作一番。如何确定V7很强，当然是和别的模型比较一下。网友@Zapidroid使用相同的提示词，并排图像比较了相同提示词下，V6、V7和GPT-4o的效果。他认为GPT4o依然更胜一筹。以下为相同提示词的生成效果，图片从左到右依次为V6、V7和GPT-4o生成的图像。你认为哪个模型更好？欢迎在评论区讨论。

A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.

一位留着深色头发、扎着开放式马尾辫、身穿黑色夹克的印度年轻女子站在大学校园里，直视镜头，画面有90年代风格的电影依然唯美，还有一张阳光明媚的日子里的特写肖像。

A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.

一只雄伟的谷仓猫头鹰栖息在一根古老的苔藓覆盖的树枝上，周围是迷蒙的森林。场景沐浴在柔和的光线中，透过茂密的树叶过滤，营造出一种神奇而空灵的氛围。写实风格，注重羽毛和纹理的细节。

A person's hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.

一个人的手指向飞机的窗户，从里面可以看到飞机的机翼。外面的天空在黎明或黄昏时显示出清晰的地平线。在他们面前是一片广阔的海洋。

Close-up of an anime woman's face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.

动漫女性面部特写，表情震惊，深色头发，动漫风格。彩色动画剧照，特写强度，柔和的灯光，低角度相机视图，高细节。

A close-up of broccoli being sautéed in oil, with the vegetable's green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white background.

花椰菜在油中炒的特写镜头，蔬菜的绿色小花与深棕色酱汁形成对比。一个不锈钢锅里部分可见一个大勺子，上面装满焦糖和闪亮的黑色釉，背景是白色的。

A wide image taken with the phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt with a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

在俯瞰海湾大桥的房间里，用手机用玻璃白板拍摄的一张宽照片。视野显示一个女人在写作，穿着一件印有大OpenAI标志的t恤。笔迹看起来很自然，有点凌乱，我们看到了摄影师的倒影。

看完以上对比后，你认为哪个模型更好？

虽然无法下论断V7和GPT4o谁更强，但是V7确实要比V6版本优化不少。

当然，也有人对V7的一些效果提出了质疑，比如图片生成中一个重要的考点「文字生成」。

网友@sleone_76尝试使用Midjourney v7和ChatGPT-4执行相同的提示，Midjourney V7的文字生成仍然完全失败。

sleone_76说他很失望，对于一个专门从事图像创作并承诺使用V7可以更好地生成文本的团队来说，这应该是最基本的要求。

Midjourney V7的推出无疑为已经够火的图像生成赛道又添了把火。

不管是通过对话实现创意想法的「草稿模式」还是可以个性化定制的智能美感，都展现了V7的强大实力。

但将其与GPT-4o放在一起同台竞技时，它并未「遥遥领先」。尤其是文字生成等短板依然刺眼。

不过，Midjourney承诺未来60天将会有新功能放出，不知道那时它是否会重回文生图领域的王者。

参考资料：

https://twitter.com/Zapidroid/status/1908058828295250205

https://twitter.com/doganuraldesign/status/1908061707160924593

https://www.midjourney.com/updates/v7-alpha