AI绘画从零开始:Midjourney和Gemini 2.0 Flash Image完全指南

上个月,一位完全不会画画的宝妈,用AI帮女儿生成了整套绘本插画,卖出了2000份,收入超过3万元。

她不懂Photoshop,不懂色彩理论,甚至连"构图"是什么都说不清楚。

她只是学会了怎么"跟AI说话"。

你是不是也试过AI绘画,但出来的图总是差点意思?构图歪、颜色奇怪、手指长成八根、风格完全不是你想要的?

问题不在工具,在于你还没掌握让AI真正听懂你的方法。

读完这篇文章,你将彻底打通AI绘画的任督二脉——从第一张图的生成,到批量出图工作流的搭建,全部手把手教。

---

一、AI绘画正在重写创作的规则

2022年,Stable Diffusion和Midjourney横空出世,AI绘画从科研圈的玩具变成了普通人的生产力工具。

三年后的今天,这个赛道已经不是"有没有用"的问题,而是"用得好不好"的问题。

几组数据可以说明现在的规模:

  • 全球AI图像生成市场:2024年规模约47亿美元,预计2027年突破130亿美元,年复合增长率超过40%
  • Midjourney注册用户:截至2024年底已超过1600万,日均生成图片量峰值突破400万张
  • 效率对比:传统设计师完成一张商业插画平均需要4-8小时;AI出图,3分钟
  • 成本对比:外包一张商业插画,市场价500元起步,精品级别3000元以上;AI生成同等质量的图,成本不足1元

这不是在说AI会取代设计师。而是说,会用AI的人,正在以10倍的效率碾压不会用的人

两款工具,两种定位

本文重点介绍两款主流工具,先建立基本认知:

| 工具 | 定位 | 核心优势 | 适合人群 | | Midjourney | 艺术创作型 | 画质顶尖、风格多样、社区生态成熟 | 设计师、创作者、追求极致画质的用户 | | Gemini 2.0 Flash Image | 实用多模态型 | 中文理解强、图文混合、API友好、速度快 | 开发者、内容运营、有批量需求的用户 |

简单说:想要"好看",选Midjourney;想要"好用",选Gemini。当然,最理想的状态是两个都会用。

---

二、Midjourney完全上手指南

这一章结束后,你将能独立生成第一张专业级AI图片。

注册和基本操作

Midjourney目前通过Discord运行。操作路径如下:

1. 注册Discord账号(discord.com)

2. 访问 midjourney.com,点击"Join the Beta"进入官方服务器

3. 订阅套餐(基础版$10/月,约80张图;标准版$30/月,无限慢速图)

4. 在任意频道输入 /imagine 命令,后接你的Prompt,回车

⚠️ 避坑提示:新手常犯的错误是在公共频道生图,所有人都能看到你的作品。建议订阅后创建私人服务器,邀请Midjourney Bot进入,这样出图更私密,也不容易被刷屏干扰。

Prompt结构公式

专业创作者都在用同一套底层逻辑:

[主体描述] + [风格参考] + [光线设定] + [质量词] + [参数]
示例拆解:
一只橘猫坐在雨中的东京街头,

赛博朋克风格,霓虹灯反射在水面,

电影级灯光,超高清,8K画质

--ar 16:9 --v 6 --style raw

  • 主体:一只橘猫坐在雨中的东京街头
  • 风格:赛博朋克风格
  • 光线:霓虹灯反射在水面,电影级灯光
  • 质量词:超高清,8K画质
  • 参数--ar 16:9(宽高比)--v 6(版本)--style raw(减少AI过度美化)

核心参数速查表

| 参数 | 作用 | 常用值 | | --ar | 宽高比 | 1:1(头像)16:9(壁纸)9:16(手机竖图) | | --v | 模型版本 | --v 6(当前最新,推荐) | | --style | 风格偏向 | raw(写实)cute(可爱) | | --chaos | 随机程度 | 0-100,越高越天马行空 | | --no | 排除元素 | --no text, watermark(去掉文字水印) | | --q | 质量/速度 | --q 2(高质量)--q .5(快速出图) |

10个场景Prompt模板(直接复制用)

# 电商产品图

[产品名称],白色背景,专业产品摄影,

柔和自然光,高清细节,商业级质量

--ar 1:1 --v 6 --style raw

社交媒体头像

[人物描述],正面特写,自然光,

浅景深,专业摄影,真实感

--ar 1:1 --style raw --no text

科技感插画

[主题内容],赛博朋克风格,霓虹色调,

未来感,高对比度,数字艺术

--ar 16:9 --v 6

中国风水墨画

[场景描述],中国传统水墨风格,

留白构图,意境深远,山水画

--ar 3:4 --v 6

扁平插画(PPT/海报用)

[主题],扁平设计风格,简洁线条,

明亮色彩,矢量插画感,白色背景

--ar 16:9 --v 6

---

三、Gemini 2.0 Flash Image——被低估的AI绘画黑马

如果你只是想玩玩,前两章够了;如果你想把AI绘画变成生产力工具,接着看。

Gemini 2.0 Flash Image是Google在2024年底推出的多模态模型,在AI绘画圈的存在感远不如Midjourney,但它有几个Midjourney根本做不到的能力:

  • 原生中文理解:不需要把中文Prompt翻译成英文,直接用中文描述,理解准确率显著更高
  • 图文混合生成:可以在一张图里同时生成图像和文字,适合做信息图、海报、带文案的社交图
  • API原生支持:开发者可以直接调用,无需第三方桥接,适合批量生产场景
  • 速度更快:平均出图时间在10秒以内,Midjourney通常需要30-60秒

API调用完整示例

import google.generativeai as genai

import base64

from PIL import Image

import io

配置API Key

genai.configure(api_key="YOUR_API_KEY")

初始化模型

model = genai.GenerativeModel('gemini-2.0-flash-exp')

文生图示例

response = model.generate_content(

contents=[

{

"role": "user",

"parts": [

{

"text": "一只赛博朋克风格的橘猫,坐在霓虹灯闪烁的东京街头,"

"电影级光影,超高清,8K,写实风格"

}

]

}

],

generation_config={

"response_mime_type": "image/png"

}

)

保存图片

image_data = response.candidates[0].content.parts[0].inline_data.data

with open("output.png", "wb") as f:

f.write(base64.b64decode(image_data))

print("图片生成成功!")

💡 小提示:如果你不想处理Google API的地区限制、账单配置、密钥管理这些麻烦事,可以直接用 api.884819.xyz 的统一接口——Midjourney和Gemini 2.0 Flash Image都能调,一个API Key搞定,国内直连,按量计费。代码里把 base_url 换一下就行,其他逻辑完全不变。

四大场景出图对比

根据实际测试,两款工具各有擅长:

| 场景 | Midjourney | Gemini 2.0 Flash | 推荐 | | 写实人像 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | Midjourney | | 动漫/插画 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | Midjourney | | 产品电商图 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 平手 | | 带文字的信息图 | ⭐⭐ | ⭐⭐⭐⭐⭐ | Gemini | | 中文场景理解 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Gemini | | 批量API调用 | ⭐⭐ | ⭐⭐⭐⭐⭐ | Gemini |

---

四、Prompt进阶:让出图质量提升300%的秘密

这章的内容,是大多数"AI绘画教程"不会告诉你的部分。

负向提示词的正确用法

Midjourney的 --no 参数和Gemini的负向描述,是控制画面质量的关键武器。

常用负向提示词组合:

--no text, watermark, blurry, low quality, deformed hands,

extra fingers, ugly, duplicate, morbid, mutilated

手部变形是AI绘画最常见的翻车场景。解决方案:

1. 在Prompt里加入 --no deformed hands, extra fingers

2. 如果画面里必须有手,在正向Prompt里明确写 hands with 5 fingers, anatomically correct

3. 生成多张(用--repeat参数),从中挑选手部正常的版本

50+风格参考词库

摄影风格: cinematic lighting(电影光效)、golden hour(黄金时刻)、bokeh(背景虚化)、studio lighting(棚拍光)、documentary photography(纪实摄影) 艺术风格: watercolor(水彩)、oil painting(油画)、ukiyo-e(浮世绘)、Art Nouveau(新艺术运动)、Bauhaus(包豪斯)、minimalism(极简主义) 渲染质量词: 8K resolutionultra-detailedhyperrealisticoctane renderunreal engineray tracing 情绪氛围词: dreamy(梦幻)、melancholic(忧郁)、epic(史诗)、cozy(温馨)、mysterious(神秘)

批量出图工作流(可直接用)

# 使用统一API平台(国内直连,无需翻墙)

import openai

import time

client = openai.OpenAI(

api_key="your-key-here",

base_url="https://api.884819.xyz/v1" # 同时支持Midjourney和Gemini

)

批量Prompt列表

prompts = [

"产品主图:白色运动鞋,极简背景,商业摄影风格,超高清",

"产品主图:黑色运动鞋,极简背景,商业摄影风格,超高清",

"产品主图:红色运动鞋,极简背景,商业摄影风格,超高清",

]

results = []

for i, prompt in enumerate(prompts):

try:

response = client.images.generate(

model="gemini-2.0-flash-exp", # 改成 "midjourney" 即可切换

prompt=prompt,

size="1024x1024",

n=1

)

results.append(response.data[0].url)

print(f"✅ 第{i+1}张完成:{response.data[0].url}")

except Exception as e:

print(f"❌ 第{i+1}张失败:{e}")

time.sleep(1) # 避免触发频率限制

print(f"\n批量生成完成,共{len(results)}张")

这样写的好处是:切换Midjourney和Gemini只需要改一个model参数,整个工作流代码不用重写,对需要A/B测试不同风格的运营来说非常实用。

常见翻车场景修复方案

| 问题 | 原因 | 解决方案 | | 手指变形 | AI对手部结构理解弱 | 加 --no deformed hands + 多生成几张挑选 | | 图片里出现乱码文字 | AI无法准确生成文字 | 加 --no text, letters 或后期用PS添加文字 | | 风格不一致(批量出图) | 每次生成都是独立随机 | 使用 --seed 参数固定随机种子 | | 颜色太饱和/太暗 | 默认风格偏差 | 加 natural colors, balanced exposure | | 背景太复杂 | Prompt没有明确背景 | 明确写 simple backgroundwhite background |

---

五、2025年AI绘画工具选型终极指南

不废话,直接给结论。

六维度对比表

| 维度 | Midjourney | Gemini 2.0 Flash Image | | 价格 | $10-60/月订阅制 | 按量计费,约$0.002/张 | | 速度 | 30-60秒/张 | 5-15秒/张 | | 画质上限 | ⭐⭐⭐⭐⭐(业界最高) | ⭐⭐⭐⭐ | | 中文支持 | ⭐⭐⭐(需英文Prompt最佳) | ⭐⭐⭐⭐⭐ | | API友好度 | ⭐⭐(需第三方桥接) | ⭐⭐⭐⭐⭐ | | 商用版权 | Pro版以上可商用 | 遵循Google使用条款,可商用 | | 国内访问 | 需梯子 | 需梯子 | | 推荐入口 | Discord(需梯子)| Google AI Studio(需梯子)| api.884819.xyz(国内直连✅) |
📌 如果你在国内使用,api.884819.xyz 同时支持以上两个模型的API调用,注册即送体验额度,适合先试试再决定。

三类用户推荐方案

个人创作者(做头像、壁纸、社交内容)

首选Midjourney。画质是核心需求,订阅基础版$10/月够用。重点学Prompt结构和参数调整,每天练习10个Prompt,两周后出图质量会有质的飞跃。

设计师/内容运营(有批量出图需求)

Midjourney + Gemini双修。Midjourney负责高质量单图创作,Gemini负责批量产图和需要中文文字的场景。用统一API接口管理,工作流最简洁。

开发者(要集成到产品/工作流)

优先Gemini 2.0 Flash Image。API文档清晰,响应速度快,成本可控,中文理解强。如果产品对画质要求极高,再考虑接入Midjourney API。

7天AI绘画练习计划

| 天数 | 任务 | 目标 | | Day 1 | 注册账号,生成第一张图 | 跑通基本流程 | | Day 2 | 用5个不同Prompt练习主体描述 | 理解主体词的影响 | | Day 3 | 练习--ar--v参数 | 掌握基础参数 | | Day 4 | 尝试10种不同风格词 | 建立风格感知 | | Day 5 | 练习负向提示词,修复一张翻车图 | 学会质量控制 | | Day 6 | 用Gemini生成同款Prompt,对比效果 | 建立工具认知 | | Day 7 | 完成一套完整场景(3-5张风格一致的图) | 形成创作闭环 |

---

现在你有两个选择:

选择一:自己去折腾——注册Discord、解决Midjourney的地区访问、申请Google Cloud账单、配置API密钥、处理各种报错……大概需要半天时间才能跑通第一行代码。 选择二:直接用 api.884819.xyz,一个Key,今天就能开始画第一张图。折腾的时间,够你练完Day 1到Day 3的任务了。

怎么选,你自己决定。

---

📌 下期预告

你以为AI只能生成静态图片?

下一篇,我们要聊一个更炸裂的方向:

《AI视频生成实战:Sora、Kling、可灵——谁才是2025年最值得用的AI视频工具?》

同样是从零开始,同样是手把手教,但视频生成的坑,比图片多三倍。

关注我,下周见。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI绘画 #Midjourney教程 #Gemini #AI生图 #Prompt技巧 #人工智能 #8848AI #AI工具