AI绘画从零开始:Midjourney和Gemini 3.1 Flash Image完全指南
AI绘画从零开始:Midjourney和Gemini 2.0 Flash Image完全指南
上个月,一位完全不会画画的宝妈,用AI帮女儿生成了整套绘本插画,卖出了2000份,收入超过3万元。
她不懂Photoshop,不懂色彩理论,甚至连"构图"是什么都说不清楚。
她只是学会了怎么"跟AI说话"。
你是不是也试过AI绘画,但出来的图总是差点意思?构图歪、颜色奇怪、手指长成八根、风格完全不是你想要的?
问题不在工具,在于你还没掌握让AI真正听懂你的方法。
读完这篇文章,你将彻底打通AI绘画的任督二脉——从第一张图的生成,到批量出图工作流的搭建,全部手把手教。
---
一、AI绘画正在重写创作的规则
2022年,Stable Diffusion和Midjourney横空出世,AI绘画从科研圈的玩具变成了普通人的生产力工具。
三年后的今天,这个赛道已经不是"有没有用"的问题,而是"用得好不好"的问题。
几组数据可以说明现在的规模:
- 全球AI图像生成市场:2024年规模约47亿美元,预计2027年突破130亿美元,年复合增长率超过40%
- Midjourney注册用户:截至2024年底已超过1600万,日均生成图片量峰值突破400万张
- 效率对比:传统设计师完成一张商业插画平均需要4-8小时;AI出图,3分钟
- 成本对比:外包一张商业插画,市场价500元起步,精品级别3000元以上;AI生成同等质量的图,成本不足1元
这不是在说AI会取代设计师。而是说,会用AI的人,正在以10倍的效率碾压不会用的人。
两款工具,两种定位
本文重点介绍两款主流工具,先建立基本认知:
| 工具 | 定位 | 核心优势 | 适合人群 | | Midjourney | 艺术创作型 | 画质顶尖、风格多样、社区生态成熟 | 设计师、创作者、追求极致画质的用户 | | Gemini 2.0 Flash Image | 实用多模态型 | 中文理解强、图文混合、API友好、速度快 | 开发者、内容运营、有批量需求的用户 |简单说:想要"好看",选Midjourney;想要"好用",选Gemini。当然,最理想的状态是两个都会用。
---
二、Midjourney完全上手指南
这一章结束后,你将能独立生成第一张专业级AI图片。
注册和基本操作
Midjourney目前通过Discord运行。操作路径如下:
1. 注册Discord账号(discord.com)
2. 访问 midjourney.com,点击"Join the Beta"进入官方服务器
3. 订阅套餐(基础版$10/月,约80张图;标准版$30/月,无限慢速图)
4. 在任意频道输入 /imagine 命令,后接你的Prompt,回车
⚠️ 避坑提示:新手常犯的错误是在公共频道生图,所有人都能看到你的作品。建议订阅后创建私人服务器,邀请Midjourney Bot进入,这样出图更私密,也不容易被刷屏干扰。
Prompt结构公式
专业创作者都在用同一套底层逻辑:
[主体描述] + [风格参考] + [光线设定] + [质量词] + [参数]
示例拆解:
一只橘猫坐在雨中的东京街头,
赛博朋克风格,霓虹灯反射在水面,
电影级灯光,超高清,8K画质
--ar 16:9 --v 6 --style raw
- 主体:一只橘猫坐在雨中的东京街头
- 风格:赛博朋克风格
- 光线:霓虹灯反射在水面,电影级灯光
- 质量词:超高清,8K画质
- 参数:
--ar 16:9(宽高比)--v 6(版本)--style raw(减少AI过度美化)
核心参数速查表
| 参数 | 作用 | 常用值 | |--ar | 宽高比 | 1:1(头像)16:9(壁纸)9:16(手机竖图) |
| --v | 模型版本 | --v 6(当前最新,推荐) |
| --style | 风格偏向 | raw(写实)cute(可爱) |
| --chaos | 随机程度 | 0-100,越高越天马行空 |
| --no | 排除元素 | --no text, watermark(去掉文字水印) |
| --q | 质量/速度 | --q 2(高质量)--q .5(快速出图) |
10个场景Prompt模板(直接复制用)
# 电商产品图
[产品名称],白色背景,专业产品摄影,
柔和自然光,高清细节,商业级质量
--ar 1:1 --v 6 --style raw
社交媒体头像
[人物描述],正面特写,自然光,
浅景深,专业摄影,真实感
--ar 1:1 --style raw --no text
科技感插画
[主题内容],赛博朋克风格,霓虹色调,
未来感,高对比度,数字艺术
--ar 16:9 --v 6
中国风水墨画
[场景描述],中国传统水墨风格,
留白构图,意境深远,山水画
--ar 3:4 --v 6
扁平插画(PPT/海报用)
[主题],扁平设计风格,简洁线条,
明亮色彩,矢量插画感,白色背景
--ar 16:9 --v 6
---
三、Gemini 2.0 Flash Image——被低估的AI绘画黑马
如果你只是想玩玩,前两章够了;如果你想把AI绘画变成生产力工具,接着看。
Gemini 2.0 Flash Image是Google在2024年底推出的多模态模型,在AI绘画圈的存在感远不如Midjourney,但它有几个Midjourney根本做不到的能力:
- 原生中文理解:不需要把中文Prompt翻译成英文,直接用中文描述,理解准确率显著更高
- 图文混合生成:可以在一张图里同时生成图像和文字,适合做信息图、海报、带文案的社交图
- API原生支持:开发者可以直接调用,无需第三方桥接,适合批量生产场景
- 速度更快:平均出图时间在10秒以内,Midjourney通常需要30-60秒
API调用完整示例
import google.generativeai as genai
import base64
from PIL import Image
import io
配置API Key
genai.configure(api_key="YOUR_API_KEY")
初始化模型
model = genai.GenerativeModel('gemini-2.0-flash-exp')
文生图示例
response = model.generate_content(
contents=[
{
"role": "user",
"parts": [
{
"text": "一只赛博朋克风格的橘猫,坐在霓虹灯闪烁的东京街头,"
"电影级光影,超高清,8K,写实风格"
}
]
}
],
generation_config={
"response_mime_type": "image/png"
}
)
保存图片
image_data = response.candidates[0].content.parts[0].inline_data.data
with open("output.png", "wb") as f:
f.write(base64.b64decode(image_data))
print("图片生成成功!")
💡 小提示:如果你不想处理Google API的地区限制、账单配置、密钥管理这些麻烦事,可以直接用api.884819.xyz的统一接口——Midjourney和Gemini 2.0 Flash Image都能调,一个API Key搞定,国内直连,按量计费。代码里把base_url换一下就行,其他逻辑完全不变。
四大场景出图对比
根据实际测试,两款工具各有擅长:
| 场景 | Midjourney | Gemini 2.0 Flash | 推荐 | | 写实人像 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | Midjourney | | 动漫/插画 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | Midjourney | | 产品电商图 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 平手 | | 带文字的信息图 | ⭐⭐ | ⭐⭐⭐⭐⭐ | Gemini | | 中文场景理解 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Gemini | | 批量API调用 | ⭐⭐ | ⭐⭐⭐⭐⭐ | Gemini |---
四、Prompt进阶:让出图质量提升300%的秘密
这章的内容,是大多数"AI绘画教程"不会告诉你的部分。
负向提示词的正确用法
Midjourney的 --no 参数和Gemini的负向描述,是控制画面质量的关键武器。
常用负向提示词组合:
--no text, watermark, blurry, low quality, deformed hands,
extra fingers, ugly, duplicate, morbid, mutilated
手部变形是AI绘画最常见的翻车场景。解决方案:
1. 在Prompt里加入 --no deformed hands, extra fingers
2. 如果画面里必须有手,在正向Prompt里明确写 hands with 5 fingers, anatomically correct
3. 生成多张(用--repeat参数),从中挑选手部正常的版本
50+风格参考词库
摄影风格:cinematic lighting(电影光效)、golden hour(黄金时刻)、bokeh(背景虚化)、studio lighting(棚拍光)、documentary photography(纪实摄影)
艺术风格:
watercolor(水彩)、oil painting(油画)、ukiyo-e(浮世绘)、Art Nouveau(新艺术运动)、Bauhaus(包豪斯)、minimalism(极简主义)
渲染质量词:
8K resolution、ultra-detailed、hyperrealistic、octane render、unreal engine、ray tracing
情绪氛围词:
dreamy(梦幻)、melancholic(忧郁)、epic(史诗)、cozy(温馨)、mysterious(神秘)
批量出图工作流(可直接用)
# 使用统一API平台(国内直连,无需翻墙)
import openai
import time
client = openai.OpenAI(
api_key="your-key-here",
base_url="https://api.884819.xyz/v1" # 同时支持Midjourney和Gemini
)
批量Prompt列表
prompts = [
"产品主图:白色运动鞋,极简背景,商业摄影风格,超高清",
"产品主图:黑色运动鞋,极简背景,商业摄影风格,超高清",
"产品主图:红色运动鞋,极简背景,商业摄影风格,超高清",
]
results = []
for i, prompt in enumerate(prompts):
try:
response = client.images.generate(
model="gemini-2.0-flash-exp", # 改成 "midjourney" 即可切换
prompt=prompt,
size="1024x1024",
n=1
)
results.append(response.data[0].url)
print(f"✅ 第{i+1}张完成:{response.data[0].url}")
except Exception as e:
print(f"❌ 第{i+1}张失败:{e}")
time.sleep(1) # 避免触发频率限制
print(f"\n批量生成完成,共{len(results)}张")
这样写的好处是:切换Midjourney和Gemini只需要改一个model参数,整个工作流代码不用重写,对需要A/B测试不同风格的运营来说非常实用。
常见翻车场景修复方案
| 问题 | 原因 | 解决方案 | | 手指变形 | AI对手部结构理解弱 | 加--no deformed hands + 多生成几张挑选 |
| 图片里出现乱码文字 | AI无法准确生成文字 | 加 --no text, letters 或后期用PS添加文字 |
| 风格不一致(批量出图) | 每次生成都是独立随机 | 使用 --seed 参数固定随机种子 |
| 颜色太饱和/太暗 | 默认风格偏差 | 加 natural colors, balanced exposure |
| 背景太复杂 | Prompt没有明确背景 | 明确写 simple background 或 white background |
---
五、2025年AI绘画工具选型终极指南
不废话,直接给结论。
六维度对比表
| 维度 | Midjourney | Gemini 2.0 Flash Image | | 价格 | $10-60/月订阅制 | 按量计费,约$0.002/张 | | 速度 | 30-60秒/张 | 5-15秒/张 | | 画质上限 | ⭐⭐⭐⭐⭐(业界最高) | ⭐⭐⭐⭐ | | 中文支持 | ⭐⭐⭐(需英文Prompt最佳) | ⭐⭐⭐⭐⭐ | | API友好度 | ⭐⭐(需第三方桥接) | ⭐⭐⭐⭐⭐ | | 商用版权 | Pro版以上可商用 | 遵循Google使用条款,可商用 | | 国内访问 | 需梯子 | 需梯子 | | 推荐入口 | Discord(需梯子)| Google AI Studio(需梯子)| api.884819.xyz(国内直连✅) |📌 如果你在国内使用,api.884819.xyz 同时支持以上两个模型的API调用,注册即送体验额度,适合先试试再决定。
三类用户推荐方案
个人创作者(做头像、壁纸、社交内容)→ 首选Midjourney。画质是核心需求,订阅基础版$10/月够用。重点学Prompt结构和参数调整,每天练习10个Prompt,两周后出图质量会有质的飞跃。
设计师/内容运营(有批量出图需求)→ Midjourney + Gemini双修。Midjourney负责高质量单图创作,Gemini负责批量产图和需要中文文字的场景。用统一API接口管理,工作流最简洁。
开发者(要集成到产品/工作流)→ 优先Gemini 2.0 Flash Image。API文档清晰,响应速度快,成本可控,中文理解强。如果产品对画质要求极高,再考虑接入Midjourney API。
7天AI绘画练习计划
| 天数 | 任务 | 目标 | | Day 1 | 注册账号,生成第一张图 | 跑通基本流程 | | Day 2 | 用5个不同Prompt练习主体描述 | 理解主体词的影响 | | Day 3 | 练习--ar和--v参数 | 掌握基础参数 |
| Day 4 | 尝试10种不同风格词 | 建立风格感知 |
| Day 5 | 练习负向提示词,修复一张翻车图 | 学会质量控制 |
| Day 6 | 用Gemini生成同款Prompt,对比效果 | 建立工具认知 |
| Day 7 | 完成一套完整场景(3-5张风格一致的图) | 形成创作闭环 |
---
现在你有两个选择:
选择一:自己去折腾——注册Discord、解决Midjourney的地区访问、申请Google Cloud账单、配置API密钥、处理各种报错……大概需要半天时间才能跑通第一行代码。 选择二:直接用api.884819.xyz,一个Key,今天就能开始画第一张图。折腾的时间,够你练完Day 1到Day 3的任务了。
怎么选,你自己决定。
---
📌 下期预告
你以为AI只能生成静态图片?
下一篇,我们要聊一个更炸裂的方向:
《AI视频生成实战:Sora、Kling、可灵——谁才是2025年最值得用的AI视频工具?》同样是从零开始,同样是手把手教,但视频生成的坑,比图片多三倍。
关注我,下周见。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI绘画 #Midjourney教程 #Gemini #AI生图 #Prompt技巧 #人工智能 #8848AI #AI工具