先优化再生成 — Plan Evaluate Improve 稳定出图

为什么默认要「先优化再生成」

多数 AI 生成翻车并不是模型不行，而是提示词或脚本不够具体。像「好看的商品图」这种描述，模型会在光线、角度、背景、风格上自由发挥，结果每次都不一样。

AI 对话把模糊意图变成结构化指令，生图与 TTS 模型才能稳定执行。优化后通常能获得：

目标更清晰 — 主体、场景、用途一目了然
风格更统一 — 同一品牌视觉可批量复现
细节可控 — 材质、光影、构图都有明确描述
结果更稳定 — 减少随机废片和反复重 roll

优化前后对比

粗略输入（不稳定）：

护肤瓶广告用，要好看

经 AI 对话优化后（稳定）：

单瓶护肤精华，画面居中为视觉主体，纯白无缝背景，
左上方柔和影棚主光，瓶底轻微接触阴影，
玻璃材质真实反光，标签文字清晰可读，
高端 DTC 品牌感，写实摄影，4:5 画幅用于 Instagram feed 广告

优化版写清了主体位置、背景、光向、材质与约束——Nano Banana 2 等模型更少「猜错」。

Plan–Evaluate–Improve 闭环

把五步流水线压缩成可记忆的三个动作：

阶段	在 ForgeEcho 里做什么	产出
Plan	AI 对话：brief + 3 个结构化变体	可生产的 prompt / 脚本
Evaluate	生图或配音 + 清单打分	知道「差在哪一项」
Improve	只改一个变量再生成	可复现的改进记录

Evaluate 阶段最容易被跳过——团队往往连续重 roll 十几次。对照清单（主体可读、颜色、畸变、口播节奏）能更快定位是 prompt 结构问题 还是 模型/分辨率选择问题，避免无效消耗积分。

对话式修图场景同样适用：参考图 + 第一轮「只调光线」→ 评估 → 第二轮「轻度磨皮」——不要一步堆满所有美颜词。

核心流水线（5 步）

1. 写粗略提示词

用日常语言描述需求即可，暂时不用纠结格式。

示例：护肤精华瓶，干净背景，高级感，适合 Instagram 广告

2. 在 AI 对话中细化

粘贴粗略想法，要求结构化变体。生成 3 个风格方向——例如：极简影棚、自然生活光、高饱和 campaign 色。

对比时重点看：

产品是否足够突出
色调是否符合品牌或品类
关键词是否互相冲突（同时写「写实」和「 flat 插画」等）

口播脚本可在对话中要求缩短句子、增加钩子与 CTA。

每条对话回复 0.5 积分，并写入 提示词库。

3. 进入 AI 生图或 AI 语音

选定一个版本后生成。

AI 生图积分： 1K = 3、2K = 4、4K = 8 积分/次。

AI 语音： 每 500 字符 1 积分（不足 500 按 500 计）。

语音建议先生成 10–20 秒样本，确认语气与节奏后再做完整配音。

4. 对比并迭代

用简单清单打分：

检查项	是否达标
缩略图尺寸下主体可辨认（图片）
颜色接近实物或品牌色（图片）
无明显畸变或乱码（图片）
语速自然、发音清晰（语音）

每次只改一个变量——光线、背景、音色或脚本长度——不要一次改太多。

5. 保存为可复用模板

记录 winning 提示词或脚本及元信息：

用途（主图、广告、封面、配音）
画幅（1:1、4:5、9:16）
模型备注（草稿用 nano-banana-fast，正式产出用 nano-banana-2）

下次只替换商品名或角度即可。

模型选择速查

目标	建议模型	说明
快速草稿与试错	`nano-banana-fast`	成本低，适合探索
电商/广告正式产出	`nano-banana-2`	支持 1K/2K/4K，综合最佳
高分辨率 campaign	`nano-banana-2-4k-cl` 或 `nano-banana-pro`	平台要求 4K 时使用
参考图编辑	任意模型 + 上传参考图	JPG/PNG/WebP，最大 3MB

什么时候先对话，什么时候只改现有 prompt

场景	建议
目标清楚但不知道怎么写	AI 对话 → 结构化变体
已有可用 prompt 但效果漂移	对话：「保持结构，只修 [一个问题]」
新 campaign，方向未定	对话探索 2–3 种调性 → 选定
批量生产已有模板	跳过探索，只替换 SKU 字段

优化请求写法见 AI 对话功能使用方法。

团队协作：统一提示词库

电商、带货、社媒团队共用一套库，比各自乱写效率高得多：

类别	模板字段
商品图	SKU、角度、背景、光线、「保持标签可读」
社媒帖	平台、钩子情绪、CTA 语气、文字安全区
配音广告	时长、开头钩子、利益点、CTA、偏好音色

每月复盘一次，淘汰 CTR 或转化持续偏低的模板。

端到端案例：从 brief 到可投放素材（90 分钟）

场景： 无线耳机 TikTok 9:16 广告——需要封面静帧 + 20 秒口播。

时间线
09:00  AI 对话 — brief + 3 个 9:16 视觉方向 + 2 个口播钩子     (~15 min, 2 积分)
09:15  AI 生图 — fast 1K × 6 筛封面                              (~20 min, 18 积分)
09:35  清单打分 — 选定「UGC 手持 + 窗光」                         (~5 min)
09:40  AI 生图 — nano-banana-2 2K 定稿 × 2                       (~10 min, 8 积分)
09:50  AI 对话 — 口播定稿 40 字，按口语断句                        (~5 min, 0.5 积分)
09:55  AI 语音 — 15 秒样本 × 2 音色                               (~10 min, 2 积分)
10:05  剪辑工具 — 静帧 + 配音 + 字幕                               (~25 min)

Evaluate 阶段记录表（建议每次填写）：

检查项	封面	口播
3 秒可辨认主体	✓ / ✗	—
品牌/产品名正确	✓ / ✗	✓ / ✗
无乱码文字	✓ / ✗	—
钩子在前 2 秒	—	✓ / ✗
语速自然	—	✓ / ✗

未达标的项对应单一修改杠杆——不要同时改 prompt、模型和画幅。

常见误区

觉得简单主图不用优化 — 背景和白平衡仍会大幅波动
一次改太多关键词 — 无法判断哪个改动起效
导出时才想画幅 — 9:16 / 1:1 应从提示词阶段就考虑构图
语音一上来就生很长 — 先用短样本验证语气

常见问题

优化对 AI 语音也有效吗？
有效。钩子 + 利益点 + CTA 的结构同样适用于广告口播、讲解与社媒配音。

一次生成几个版本合适？
优化 3 个方向 + 1–2 次手动微调，多数决策足够。超过 5 个版本往往拖慢节奏。

同一套提示词能跨模型用吗？
结构可以复用；分辨率和模型相关质量词按需微调即可。

为什么默认要「先优化再生成」

AI 对话把模糊意图变成结构化指令，生图与 TTS 模型才能稳定执行。优化后通常能获得：

目标更清晰 — 主体、场景、用途一目了然
风格更统一 — 同一品牌视觉可批量复现
细节可控 — 材质、光影、构图都有明确描述
结果更稳定 — 减少随机废片和反复重 roll

优化前后对比

粗略输入（不稳定）：

护肤瓶广告用，要好看

经 AI 对话优化后（稳定）：

单瓶护肤精华，画面居中为视觉主体，纯白无缝背景，
左上方柔和影棚主光，瓶底轻微接触阴影，
玻璃材质真实反光，标签文字清晰可读，
高端 DTC 品牌感，写实摄影，4:5 画幅用于 Instagram feed 广告

优化版写清了主体位置、背景、光向、材质与约束——Nano Banana 2 等模型更少「猜错」。

Plan–Evaluate–Improve 闭环

把五步流水线压缩成可记忆的三个动作：

阶段	在 ForgeEcho 里做什么	产出
Plan	AI 对话：brief + 3 个结构化变体	可生产的 prompt / 脚本
Evaluate	生图或配音 + 清单打分	知道「差在哪一项」
Improve	只改一个变量再生成	可复现的改进记录

对话式修图场景同样适用：参考图 + 第一轮「只调光线」→ 评估 → 第二轮「轻度磨皮」——不要一步堆满所有美颜词。

核心流水线（5 步）

1. 写粗略提示词

用日常语言描述需求即可，暂时不用纠结格式。

示例：护肤精华瓶，干净背景，高级感，适合 Instagram 广告

2. 在 AI 对话中细化

粘贴粗略想法，要求结构化变体。生成 3 个风格方向——例如：极简影棚、自然生活光、高饱和 campaign 色。

对比时重点看：

产品是否足够突出
色调是否符合品牌或品类
关键词是否互相冲突（同时写「写实」和「 flat 插画」等）

口播脚本可在对话中要求缩短句子、增加钩子与 CTA。

每条对话回复 0.5 积分，并写入 提示词库。

3. 进入 AI 生图或 AI 语音

选定一个版本后生成。

AI 生图积分： 1K = 3、2K = 4、4K = 8 积分/次。

AI 语音： 每 500 字符 1 积分（不足 500 按 500 计）。

语音建议先生成 10–20 秒样本，确认语气与节奏后再做完整配音。

4. 对比并迭代

用简单清单打分：

检查项	是否达标
缩略图尺寸下主体可辨认（图片）
颜色接近实物或品牌色（图片）
无明显畸变或乱码（图片）
语速自然、发音清晰（语音）

每次只改一个变量——光线、背景、音色或脚本长度——不要一次改太多。

5. 保存为可复用模板

记录 winning 提示词或脚本及元信息：

用途（主图、广告、封面、配音）
画幅（1:1、4:5、9:16）
模型备注（草稿用 nano-banana-fast，正式产出用 nano-banana-2）

下次只替换商品名或角度即可。

模型选择速查

目标	建议模型	说明
快速草稿与试错	`nano-banana-fast`	成本低，适合探索
电商/广告正式产出	`nano-banana-2`	支持 1K/2K/4K，综合最佳
高分辨率 campaign	`nano-banana-2-4k-cl` 或 `nano-banana-pro`	平台要求 4K 时使用
参考图编辑	任意模型 + 上传参考图	JPG/PNG/WebP，最大 3MB

什么时候先对话，什么时候只改现有 prompt

场景	建议
目标清楚但不知道怎么写	AI 对话 → 结构化变体
已有可用 prompt 但效果漂移	对话：「保持结构，只修 [一个问题]」
新 campaign，方向未定	对话探索 2–3 种调性 → 选定
批量生产已有模板	跳过探索，只替换 SKU 字段

优化请求写法见 AI 对话功能使用方法。

团队协作：统一提示词库

电商、带货、社媒团队共用一套库，比各自乱写效率高得多：

类别	模板字段
商品图	SKU、角度、背景、光线、「保持标签可读」
社媒帖	平台、钩子情绪、CTA 语气、文字安全区
配音广告	时长、开头钩子、利益点、CTA、偏好音色

每月复盘一次，淘汰 CTR 或转化持续偏低的模板。

端到端案例：从 brief 到可投放素材（90 分钟）

场景： 无线耳机 TikTok 9:16 广告——需要封面静帧 + 20 秒口播。

时间线
09:00  AI 对话 — brief + 3 个 9:16 视觉方向 + 2 个口播钩子     (~15 min, 2 积分)
09:15  AI 生图 — fast 1K × 6 筛封面                              (~20 min, 18 积分)
09:35  清单打分 — 选定「UGC 手持 + 窗光」                         (~5 min)
09:40  AI 生图 — nano-banana-2 2K 定稿 × 2                       (~10 min, 8 积分)
09:50  AI 对话 — 口播定稿 40 字，按口语断句                        (~5 min, 0.5 积分)
09:55  AI 语音 — 15 秒样本 × 2 音色                               (~10 min, 2 积分)
10:05  剪辑工具 — 静帧 + 配音 + 字幕                               (~25 min)

Evaluate 阶段记录表（建议每次填写）：

检查项	封面	口播
3 秒可辨认主体	✓ / ✗	—
品牌/产品名正确	✓ / ✗	✓ / ✗
无乱码文字	✓ / ✗	—
钩子在前 2 秒	—	✓ / ✗
语速自然	—	✓ / ✗

未达标的项对应单一修改杠杆——不要同时改 prompt、模型和画幅。

常见误区

觉得简单主图不用优化 — 背景和白平衡仍会大幅波动
一次改太多关键词 — 无法判断哪个改动起效
导出时才想画幅 — 9:16 / 1:1 应从提示词阶段就考虑构图
语音一上来就生很长 — 先用短样本验证语气

常见问题

优化对 AI 语音也有效吗？
有效。钩子 + 利益点 + CTA 的结构同样适用于广告口播、讲解与社媒配音。

一次生成几个版本合适？
优化 3 个方向 + 1–2 次手动微调，多数决策足够。超过 5 个版本往往拖慢节奏。

同一套提示词能跨模型用吗？
结构可以复用；分辨率和模型相关质量词按需微调即可。

先优化再生成 — Plan Evaluate Improve 稳定出图

为什么默认要「先优化再生成」

优化前后对比

Plan–Evaluate–Improve 闭环

核心流水线（5 步）

1. 写粗略提示词

2. 在 AI 对话中细化

3. 进入 AI 生图或 AI 语音

4. 对比并迭代

5. 保存为可复用模板

模型选择速查

什么时候先对话，什么时候只改现有 prompt

团队协作：统一提示词库

端到端案例：从 brief 到可投放素材（90 分钟）

常见误区

常见问题

相关教程

先优化再生成 — Plan Evaluate Improve 稳定出图

为什么默认要「先优化再生成」

优化前后对比

Plan–Evaluate–Improve 闭环

核心流水线（5 步）

1. 写粗略提示词

2. 在 AI 对话中细化

3. 进入 AI 生图或 AI 语音

4. 对比并迭代

5. 保存为可复用模板

模型选择速查

什么时候先对话，什么时候只改现有 prompt

团队协作：统一提示词库

端到端案例：从 brief 到可投放素材（90 分钟）

常见误区

常见问题

相关教程