第四章图像驾驭——AI 绘画与视觉设计

本章摘要： “我不会画画，但我有审美。”这句话在 AI 时代成为了现实。本章将带领读者进入 AI 绘画的神奇世界，揭开”文生图”背后的技术面纱，学习如何用文字控制光影、材质和构图，并掌握国产工具即梦 AI 的高级功能。最终，读者将能够独立完成海报、插画乃至产品设计图的创作。

知识图谱

导言：人人都是艺术总监

文字之外，视觉是信息传达的另一个核心维度。海报、Logo、插画、产品图——这些过去需要专业设计师才能完成的工作，如今借助 AI 绘画工具，普通人也能快速产出高质量的视觉作品。

但”能生成图片”和”能生成好图片”之间，隔着一道审美素养的门槛。AI 不缺画技，它缺的是想法和审美——你知道什么是”赛博朋克”吗？你知道”丁达尔效应”的光是什么样的吗？你知道如何用”构图”引导观众的视线吗？如果你能用精准的词汇描述出这些，AI 就能为你画出惊艳的作品。从这个意义上说，学习 AI 绘画的过程，也是一次视觉素养的补课——即使不打算成为设计师，学会欣赏美、描述美，本身就是通识教育的重要一环。

本章将从文生图的技术原理讲起，介绍一套系统化的视觉提示词方法论，并通过即梦 AI 的进阶操作和平面设计实战，帮助读者从”随机出图”升级为”精准控图”。

学习目标

完成本章学习后，读者将能够：

解释扩散模型（Diffusion Model）“从噪声中雕刻图像”的基本原理；
对比 Midjourney、Stable Diffusion 和即梦 AI 的优缺点，并根据需求选择工具；
应用提示词美学公式（主体+环境+风格+光影+色彩+构图），生成高质量图像；
操作即梦 AI 的参考图控制、局部重绘和文字渲染功能；
设计一张完整的活动海报，将 AI 生成的图像与排版设计结合。

4.1 文生图原理与工具对比

输入一段文字，AI 就能生成一幅图像——这背后的技术原理是什么？不同工具各有什么特点？理解原理，才能写出更好的提示词。

一、为什么需要了解原理

可能会想：我只是想用 AI 画图，为什么要了解技术原理？原因很简单——理解原理能帮助写出更好的提示词。当了解了 AI 是如何”理解”文字并将其转化为图像的，就能更有针对性地描述画面，避免无效的关键词堆砌。

二、扩散模型：从噪声中”雕刻”出图像

当前主流的 AI 绘画工具（如 Midjourney、Stable Diffusion、即梦 AI）大多基于扩散模型（Diffusion Model）。

扩散模型的工作原理可以用一个比喻来理解：

想象面前有一张清晰的照片。现在，往照片上不断撒沙子（添加噪声），直到照片完全被沙子覆盖，变成一片模糊的噪点。这个过程叫正向扩散。

扩散模型要学习的，是这个过程的逆过程——从一堆随机噪点出发，一步一步去除噪声，最终”雕刻”出一张清晰的图像。这个过程叫逆向扩散。

还有一个更生活化的比喻：扩散模型就像一位经验丰富的大厨。正向扩散好比把一道精美的菜肴搅成一团糊——大厨要学会的是逆过程：看着这团糊，凭借经验一步步还原出原来的菜品。训练过程中，大厨见过成千上万道菜被搅糊再还原的过程，所以最终他能从任意一团”噪声糊”中，按照文字描述（菜单）“烹饪”出对应的画面。

正向扩散：清晰图像 → 逐步加噪 → 纯噪声
逆向扩散：纯噪声 → 逐步去噪 → 清晰图像

用一个更直观的方式来理解这个过程：

正向扩散（训练时学习）：
  🏛️ 清晰雕像 → 🏛️░ 蒙上薄纱 → ░░░░ 堆满沙砾 → ▓▓▓▓ 纯噪声

逆向扩散（生成时执行）：
  ▓▓▓▓ 纯噪声 → ░░░░ 隐约轮廓 → 🏛️░ 细节浮现 → 🏛️ 清晰图像
                    ↑ 提示词在这里介入，引导"雕刻"方向

就像米开朗基罗说的：“雕像本来就在石头里，我只是把多余的部分去掉。”扩散模型做的事情类似——图像”藏”在噪声中，模型按照提示词的指引，一步步把它”雕”出来。

当输入一段文字提示词时，模型会将文字语义作为”导航信号”，引导去噪过程朝着符合描述的方向进行。这就是为什么不同的提示词会生成完全不同的图像。

三、CLIP：让 AI “看懂”文字

扩散模型知道如何从噪声中生成图像，但它怎么知道该生成”什么”图像呢？这就需要另一个关键组件——CLIP（Contrastive Language-Image Pre-training）。

CLIP 是 OpenAI 开发的一个”翻译官”模型。它的作用是在文字和图像之间建立桥梁。可以这样理解：

输入”一只橘猫在阳光下打盹”

CLIP 将这段文字转换为一组数字（向量），这组数字编码了”橘猫”“阳光”“打盹”等语义信息

扩散模型在去噪过程中，不断参考这组数字，确保生成的图像与文字描述匹配

这就解释了一个重要的实操规律：提示词中的每个关键词都会影响最终画面。如果写了”橘猫，阳光，打盹，赛博朋克，水彩风格”，CLIP 会试图同时满足所有关键词，可能导致画面风格混乱。因此，提示词要有主次之分，核心描述放前面，风格修饰放后面。

□ 术语卡片 > CLIP：一种将文字和图像映射到同一数学空间的模型。它让 AI 能够理解”这段文字描述的是什么样的画面”，是文生图技术的核心桥梁。

思辨时刻：AI 的”视觉直觉”从哪里来？

试着在即梦 AI 中输入”一位 CEO”，观察生成的人物形象。再输入”一位护士”，对比结果。大概率会发现：CEO 多为西装革履的中年男性，护士多为年轻女性。这不是 AI 的”偏见”，而是训练数据的忠实反映——互联网上标注为”CEO”的图片确实以男性为主，标注为”护士”的图片以女性为主。AI 学到的不是”事实”，而是数据中的统计规律，而这些规律往往携带着社会的刻板印象。意识到这一点，才能在使用 AI 生成图像时保持清醒。

四、GAN：另一条技术路线

在扩散模型流行之前，GAN（生成对抗网络）曾是 AI 图像生成的主流技术。GAN 的核心思想非常巧妙——让两个神经网络互相”对抗”：

生成器（Generator）：负责”画画”，试图生成以假乱真的图像；

判别器（Discriminator）：负责”鉴定”，试图分辨哪些是真图、哪些是生成的假图。

两者不断博弈：生成器越画越逼真，判别器越辨越精准，最终生成器能产出肉眼难辨的高质量图像。这就像一个造假画师和一个鉴定专家的较量——双方都在进步。

GAN 发展出了多个重要变体：

表4-1 GAN主要变体对比

变体	特点	应用场景
StackGAN	先生成低分辨率草图，再逐步细化为高清图像	文字生成高清图片
CycleGAN	无需配对数据，实现两种风格之间的互相转换	照片↔︎油画、马↔︎斑马
StyleGAN	精细控制生成图像的风格特征（如面部表情、发型）	人脸生成、风格混合

为什么现在扩散模型更主流？ GAN 训练不稳定，容易出现”模式崩塌”（生成器只学会画少数几种图片）。扩散模型训练更稳定，生成质量更高，因此逐渐成为主流。但 GAN 在实时生成和风格迁移等场景中仍有独特优势。

五、主流工具对比

表4-2 主流AI图像生成工具对比

工具	开发方	优势	局限	适合人群
即梦 AI	字节跳动	中文友好，支持文字渲染，免费额度充足	艺术风格相对有限	入门用户、中文场景
Midjourney	Midjourney Inc.	艺术质感强，画面精致	需付费，英文提示词	设计师、艺术创作
DALL·E	OpenAI	与 ChatGPT 深度集成，对话式出图	风格可控性较弱	ChatGPT 用户、快速出图
Stable Diffusion	Stability AI	开源免费，可本地部署，高度可定制	上手门槛高，需要配置环境	技术用户、批量生产

选择建议：

课堂教学和日常使用：推荐即梦 AI，中文界面、操作简单、免费额度足够练习；

追求艺术效果：推荐 Midjourney，画面质感和风格表现力最强；

需要批量生成或深度定制：推荐 Stable Diffusion，开源生态丰富。

本教材后续实操以即梦 AI 为主要演示工具。

六、实操演示：用即梦 AI 完成第一张 AI 画作

第 1 步：打开即梦 AI（jimeng.jianying.com），注册并登录。

进入首页后，点击”AI 绘画”或”文生图”功能入口。

第 2 步：输入提示词，生成第一张图片。

在提示词输入框中输入：

一只橘色的猫咪趴在窗台上晒太阳，窗外是秋天的银杏树，
暖色调，柔和的自然光，治愈系插画风格

选择图片比例（推荐 16:9 横版），点击”生成”。

第 3 步：查看生成结果。

即梦 AI 通常会一次生成 4 张备选图片。观察这 4 张图片：

哪张最符合预期？

哪些细节与提示词描述一致，哪些有偏差？

猫咪的姿态、窗外的场景、整体色调是否满意？

第 4 步：尝试修改提示词，对比效果差异。

将提示词改为：

一只橘色的猫咪趴在窗台上晒太阳，窗外是秋天的银杏树，
冷色调，电影感光影，写实摄影风格，浅景深，8K

对比两次生成的结果，会发现：仅仅改变了色调和风格描述，画面的氛围就完全不同了。这就是提示词的力量——下一节我们将系统学习如何写出更好的视觉提示词。

常见问题

Q1：为什么同样的提示词，每次生成的图片都不一样？

因为扩散模型的起点是随机噪声。每次生成时，随机噪声不同，去噪路径也不同，所以结果会有差异。这不是 bug，而是特性——它让每次都能获得新的创意方案。

Q2：提示词用中文还是英文效果更好？

即梦 AI 对中文支持很好，日常使用中文即可。但如果追求更精确的风格控制，可以在风格关键词部分使用英文（如 Cyberpunk、Impressionism），因为模型的训练数据中英文艺术术语更丰富。

4.2 提示词美学——写出好画面的方法论

同样是”画一只猫”，为什么有人生成的是手机壁纸级大片，有人得到的却是”AI 味”十足的塑料感图片？差距就在提示词的”美学定义”上。

一、审美三维度框架：光、材质、色彩

优秀的视觉提示词不是关键词的随意堆砌，而是对画面进行系统化的”美学定义”。参考相关研究的框架 ^[4]，我们可以从三个维度来构建画面的视觉基础。

1. 光（Light）——画面的情绪开关

光是塑造氛围的第一要素。不同的光线设置会让同一个主体呈现截然不同的情绪。但在记住这些关键词之前，不妨先想想”为什么”：为什么”黄金时刻”的侧光会让人感到温暖？因为低角度的暖色阳光模拟了人类记忆中最安全的时刻——傍晚归家时的光线。为什么底光会让人感到恐怖？因为自然界中几乎不存在从下方照射的光源，它违反了视觉经验，触发了本能的不安。理解了光线背后的心理机制，选择关键词就不再是死记硬背，而是有据可循。

表4-3 光线维度提示词与画面效果

维度	选项	效果与关键词
光源	自然光	随时间变化，如 Golden hour（黄金时刻）、Morning light（晨光）
	人工光	稳定可控，如 Cinematic lighting（电影照明）、Studio lighting（摄影棚灯光）
质感	柔光	散射、无明显阴影，温暖浪漫。关键词：Soft light, Diffuse light
	硬光	直射、阴影浓重，立体感强。关键词：Hard light, High contrast
光位	逆光	勾勒轮廓光晕，梦幻感。关键词：Backlight, Rim light
	侧光	明暗对比强烈，强调轮廓。关键词：Side light
	底光	营造恐怖、阴森氛围。关键词：Bottom light
光色	暖光	亲切温馨。关键词：Warm light, Sun-kissed
	冷光	清冷疏离。关键词：Cold light, Blue tone

实操提示：在提示词中加入 Golden hour, Soft light, Backlight 三个词，就能让一张普通的人像照片瞬间拥有”电影感”。

2. 材质（Material）——画面的触感密码

材质决定了画面传递的”触感”和心理感受。以下是八种常用的材质方向：

表4-4 材质方向与画面心理感受

材质方向	心理感受	典型关键词
轻软棉绒	舒适、温暖、亲切	Cotton, Wool, Soft sculptures
原始朴真	自然、透气、质朴	Linen, Natural crude ore, Earthy color palette
坚硬岩铁	冷峻、坚固、疏离	Volcanic rocks, Liquid metal, Dark silver
梦幻薄纱	清透、飘逸、浪漫	Colored gauze, Flowing fabrics, Translucent
鎏金光芒	高贵、奢华、庄重	Golden light, Porcelain, Baroque
迷幻光影	炫彩、科技、未来	Holographic, Iridescent, Refractive surfaces
欢趣色彩	活泼、怪诞、童趣	Furry art, Rubber, Pop colorism
末世废土	破败、沧桑、末日	Rust, Decay, Post-apocalyptic

3. 色彩（Color）——画面的情绪基调

色彩是最直观的情绪表达工具。以下是几种常用的配色方案：

莫兰迪色系（Morandi）：低饱和度、灰调柔和，传递”高级感”和宁静感。为什么莫兰迪色会显得”高级”？因为低饱和度减少了视觉刺激，让画面呈现出克制与内敛的气质——这与奢侈品牌偏爱灰调的逻辑一致；

多巴胺色系（Dopamine）：高饱和度、鲜艳明快，传递活力和愉悦感；

美拉德色系（Maillard）：棕色调为主的大地色，传递温暖和复古感；

有限色域（Limited color range）：仅使用 2—3 种颜色，画面更具设计感和统一性。

中国传统色：被低估的美学宝库

除了西方色彩体系，中华传统色同样值得在 AI 创作中探索。这些颜色不仅是视觉符号，更承载着文化意象：

表4-5 中国传统色与文化意象

传统色名	色彩描述	文化意象	提示词参考
天青	雨过天晴的淡蓝	汝窑瓷器、清雅脱俗	天青色、汝窑釉色；Celadon blue, Ru ware glaze
胭脂	偏紫的深红	古典女性、含蓄热烈	胭脂红、中式古典红妆；Carmine, Traditional Chinese rouge
黛绿	深沉的墨绿	远山如黛、水墨意境	黛绿色、水墨青山；Dark jade green, Chinese ink wash
月白	微微泛蓝的白	月光、素净、留白	月白色、清冷月光；Moonlight white, Pale blue-white
赭石	暖调的红棕	大地、古朴、敦煌壁画	赭石色、敦煌壁画色调；Ochre, Dunhuang mural palette

尝试在即梦 AI 中输入 Chinese ink wash painting style, 留白, 天青色背景, 工笔重彩 等关键词，会发现 AI 能生成极具东方韵味的作品。用新技术表达传统美学，本身就是一种文化传承。

二、风格要素：用艺术流派定义画面基调

在提示词中指定艺术流派或艺术家名字，可以快速奠定画面的整体风格。

表4-6 主要艺术风格流派提示词

风格	特点	关键词示例
宋代山水	细腻写实、庄重留白	Northern Song Dynasty, Fan Kuan, Ink painting
印象派	光影变化、笔触明显	Impressionism, Monet, Dappled light
巴洛克	华丽戏剧、动态感强	Baroque, Dramatic lighting, Grandeur
穆夏/新艺术	装饰性线条、花卉女性	Alphonse Mucha, Art Nouveau, Art Deco
赛博朋克	霓虹光感、科技废墟	Cyberpunk, Neon lights, Future punk
超现实主义	梦境荒诞、视觉错位	Surrealism, Salvador Dalí, Dream-like

思政融入：文化自信与中华美学传承：上表中的”宋代山水”只是中华视觉传统的冰山一角。从敦煌壁画的飞天线条，到明清瓷器的青花意韵，再到”中国传统色”中的月白、黛绿、胭脂，中华美学拥有独立于西方体系的完整审美语言。在使用 AI 进行图像创作时，不妨有意识地探索这些传统元素——用 AI 工具传承和创新中华文化，而非仅仅模仿西方艺术风格。这既是文化自信的体现，也是让 AI 生成作品具有辨识度的有效策略。

三、应用方向：让 AI 理解画面的”用途”

明确告诉 AI 画面的用途，它会自动调整构图、细节和渲染方式。

表4-7 AI图像生成应用方向与关键词

应用方向	特点	关键词示例
产品摄影	质感突出、主体清晰	Commercial photography, Product poster, Depth of field, 8K
游戏原画	氛围感强、世界观宏大	Game poster, Concept art, Unreal Engine, Dynamic poses
电影海报	故事感、视觉冲击力	Movie poster, Theatrical lighting, Wide shot
商业插画	扁平装饰、色彩鲜明	Flat illustration, Vector art, Vibrant colors

四、提示词公式与实例

综合以上三个维度，一个高质量的文生图提示词通常遵循以下结构：

[主体描述] + [审美要素：光/材质/色彩] + [风格要素：流派/艺术家] + [应用方向：用途/画质/视角]

示例对比：

表4-8 提示词完整度对生成效果的影响

提示词	预期效果
一只猫	随机风格，质量不可控
一只白色长毛猫，Golden hour, Soft light, Backlight, 莫兰迪色系, 商业摄影风格, 浅景深, 8K	温暖柔和的高质感宠物摄影
机械少女，Neon lights, Holographic, Translucent jacket, Cyberpunk style, Movie poster, Unreal Engine 5, 8K	赛博朋克风格的科幻电影海报

小贴士：不需要每次都填满所有维度。根据需要选择 2—3 个关键维度重点描述即可。过多的关键词反而可能导致 AI “顾此失彼”。

五、实操演示：同一主体，不同参数的效果对比

下面通过一个完整的实操，直观感受不同美学参数对画面的影响。

任务：以”一杯咖啡”为主体，通过改变光线、材质和风格参数，生成三张风格迥异的图片。

第 1 步：打开即梦 AI，输入基础提示词。

一杯拿铁咖啡放在木桌上，拉花清晰可见，
自然光，写实摄影风格，浅景深，8K

观察生成结果：这是一张标准的产品摄影风格图片，画面干净、光线自然。

第 2 步：改变光线和色调，生成”电影感”版本。

一杯拿铁咖啡放在木桌上，拉花清晰可见，
Golden hour, Side light, Warm tone,
电影画面质感，胶片颗粒感，Cinematic lighting

对比第一张：画面变得更有氛围感，侧光让咖啡杯产生了明暗对比，暖色调营造出午后的慵懒感。

第 3 步：改变材质和风格，生成”赛博朋克”版本。

一杯拿铁咖啡放在金属桌面上，
Neon lights, Holographic, Cyberpunk style,
霓虹灯倒映在咖啡表面，未来感场景，8K

对比前两张：同样是一杯咖啡，但画面风格完全不同——从温馨写实变成了科幻未来。

对比总结：

表4-9 同一主体不同参数生成效果对比

版本	光线	材质/色调	风格	画面感受
写实版	自然光	木桌	产品摄影	干净、专业
电影版	黄金时刻侧光	暖色调	电影质感	温暖、有故事感
赛博版	霓虹灯光	金属+全息	赛博朋克	科幻、未来感

这个实验说明：提示词中的美学参数决定了画面的”情绪”。掌握了光、材质、色彩三个维度，就能精准控制 AI 生成的画面氛围。

4.3 即梦 AI 进阶操作

掌握基础的文生图之后，即梦 AI 还提供了一系列进阶功能，从”碰运气出图”升级为”精准控图”。

一、参考图功能：用图片引导生成

纯文字描述有时难以精确传达想要的构图、姿势或风格。参考图功能允许上传一张图片作为”视觉锚点”，AI 会在此基础上进行创作。这个功能特别适合”我想要类似这种感觉”的场景。

实操演示：将一张手机照片转换为水彩插画风格

第 1 步：在即梦 AI 的生成界面，点击”+“按钮上传一张用手机拍摄的校园风景照片作为参考图。

第 2 步：在提示词框中输入：水彩插画风格，柔和色调，手绘质感，艺术感

第 3 步：点击生成，观察结果。AI 会保留原照片的构图和主要元素，但将画面风格转换为水彩插画。

典型应用： 上传一张产品线稿，生成不同风格的渲染效果图；

上传一张人物姿势参考，生成相同姿势的不同角色；

上传一张配色参考，让 AI 按照相同色调生成新画面。

二、文字渲染：解决 AI “写假字”的难题

AI 生成图像时，画面中的文字往往是”乱码”或”假汉字”——这是因为扩散模型擅长生成视觉图案，但并不真正”理解”文字的笔画结构。

即梦 AI 提供了专门的文字渲染功能来解决这一问题：

操作方法：

在提示词中用引号标注需要渲染的文字，例如：海报上写着"科技改变未来";
或使用即梦 AI 的”文字渲染”专用功能区，单独输入需要出现在画面中的文字；
可指定文字的位置（顶部/底部/居中）、字体风格（书法/现代/手写）。

注意事项： 文字内容尽量简短（建议不超过 8 个汉字），过长的文字容易出现错误；

英文文字的渲染准确率通常高于中文；

生成后务必检查文字是否正确，必要时可通过后期编辑软件修正。

三、局部重绘：对生成图像的精准修改

生成一张整体满意但局部有瑕疵的图片时，不必重新生成整张图。局部重绘功能允许选中特定区域进行修改，同时保持其余部分不变。

从更深层的角度看，每一次局部重绘都是一次审美决策：你在告诉 AI”这里不对，我要的是那样”。这个过程训练的不仅是工具操作，更是将脑中模糊的视觉想象转化为精确指令的能力——先感觉到”哪里不对”，再分析”为什么不对”，最后表达”应该怎样”。这种从模糊到精确的思维过程，在任何需要视觉判断的工作中都用得上。

操作步骤：

选择一张已生成的图片，点击”局部重绘”；
用画笔涂抹需要修改的区域；
在提示词中描述希望该区域变成什么样子；
点击生成，AI 只会重新绘制涂抹区域。

常见应用场景：

表4-10 局部重绘常见应用场景

场景	操作方式
修复手部畸形	涂抹手部区域，提示词写”自然的手部姿态”
更换背景元素	涂抹背景中不满意的部分，描述新的背景内容
调整人物表情	涂抹面部区域，描述期望的表情
添加配饰	涂抹目标位置，描述要添加的物品

四、商品图背景替换：产品融入场景

这是电商运营和产品展示中非常实用的功能——将产品从白底图中”搬”到各种场景中。

操作流程：

上传产品的白底图或线稿；
在提示词中描述期望的场景背景，例如：产品放置在大理石桌面上，背景是落地窗外的城市天际线，自然光照射，商业摄影风格；
通过提示词强调保留产品主体的完整性；
生成多张备选，挑选光影最自然的一张。

提示词模板：

[产品描述]，放置在[场景描述]，[光线描述]，[风格描述]，商业产品摄影，高清细节

主线任务：使用即梦 AI 的参考图功能进行风格转换

找一张喜欢的照片（风景、人物或静物均可），上传为参考图，尝试将其转换为至少两种不同的艺术风格（如水彩风格、赛博朋克风格），对比生成效果。

拓展任务：商品场景图制作

选择一件日常物品（如水杯、书本、文具），拍摄一张简单的照片，使用即梦 AI 将其融入三种不同的场景背景中。

4.4 平面设计实战

海报、Logo、宣传图——这些过去需要专业设计师才能完成的工作，现在可以通过 AI 快速产出初稿，再经人工精调完成。

一、AI 辅助设计的基本流程

无论是海报、Logo 还是宣传图，AI 辅助平面设计通常遵循以下流程：

明确需求 → 撰写提示词 → AI 生成初稿 → 筛选方案 → 人工精调 → 最终定稿

但在动手写提示词之前，先停下来想三个问题：这个设计是给谁看的？想传达什么信息或情绪？在什么场景下被看到？ 一张校园招新海报和一张公益环保海报，即使画面同样精美，设计逻辑完全不同——前者要在食堂门口的嘈杂环境中”抢眼球”，后者要在安静的展厅里”触动人心”。想清楚这些，再写提示词，才不会陷入”盲目追求酷炫画面”的误区。

二、智能海报提示词公式

海报设计的提示词可以按照以下公式组织：

主题 + 标题文字 + 视觉主体 + 配色方案 + 排版风格

示例：科技文化节宣传海报

科技文化节宣传海报，标题文字"未来已来"，
视觉主体为一个发光的数字地球与飞翔的纸飞机，
配色使用深蓝色与亮青色的科技感渐变，
排版风格简洁现代，标题居中偏上，底部留出活动信息区域，
8K 高清，平面设计风格

不同类型海报的要素侧重：

表4-11 不同类型海报要素设计建议

海报类型	视觉主体建议	配色建议	排版建议
校园活动	与活动主题相关的具象元素	明快活泼，多巴胺色系	信息层次清晰，突出时间地点
商业促销	产品实物或使用场景	红色/橙色等暖色调，制造紧迫感	价格信息醒目，行动号召突出
文化展览	艺术化的抽象元素	莫兰迪色系或主题相关色调	留白充足，强调艺术感
公益宣传	情感化的人物或场景	柔和色调，避免过度刺激	文字精炼，情感传递优先

三、Logo 设计的 AI 辅助方法

Logo 设计对简洁性和辨识度要求极高，AI 生成的 Logo 通常需要较多的后期调整，但可以作为灵感来源和初稿方案。

提示词模板：

为[品牌/组织名称]设计一个 Logo，
品牌定位是[定位描述]，
风格要求[风格关键词]，
使用[颜色]配色，
简洁的矢量图形风格，白色背景，
适合印刷和屏幕显示

注意事项： AI 生成的 Logo 通常需要用矢量设计软件（如 Illustrator）重新描摹，才能用于正式场合；

生成多个方案（建议 10 个以上），从中筛选最有潜力的方向；

Logo 中的文字部分建议后期手动添加，避免 AI 生成的文字出现错误。

四、从 AI 初稿到最终成品

AI 生成的设计稿很少能直接使用，通常需要以下精调步骤：

筛选方案：从多张生成结果中选出构图和风格最接近需求的 1—2 张；
局部修正：使用即梦 AI 的局部重绘功能修复瑕疵；
文字处理：在设计软件中重新添加准确的文字内容；
格式输出：根据用途导出合适的格式和尺寸（印刷用 300dpi、屏幕用 72dpi）。

主线任务：设计一张科技文化节宣传海报

使用即梦 AI，按照”主题 + 标题文字 + 视觉主体 + 配色 + 排版”公式，设计一张校园科技文化节宣传海报。要求： 1. 尝试至少 3 种不同的提示词方案； 2. 从生成结果中选出最佳方案，使用局部重绘进行优化； 3. 记录提示词迭代过程和选择理由。

五、实战：社交媒体封面图设计

各类平台对封面图尺寸和风格有不同要求，AI 可以快速生成符合规格的视觉素材。以小红书笔记封面为例，演示完整的 AI 辅助设计流程。

任务：为一篇题为”大学生必学的5个AI工具”的小红书笔记设计封面图。

第 1 步：明确设计需求

在动手生成图片之前，先梳理封面图的核心要素： - 平台规格：小红书封面尺寸建议为 3:4 竖版（如 1080×1440px） - 视觉主体：突出主题感、高点击率的配色和文字排版 - 目标受众：大学生群体，风格偏活泼、现代

第 2 步：构建提示词

根据审美三维度框架，按”主题 + 文字 + 视觉主体 + 配色 + 排版 + 风格”公式构建提示词：

小红书封面图，标题文字"大学生必学的5个AI工具"，
视觉主体为正在使用电脑和手机的年轻人，
配色使用莫兰迪粉蓝撞色，现代简约风格，
竖版3:4构图，留白充足，杂志版式，8K高清

📷 【截图位置】：即梦 AI 生成的封面图效果，展示提示词输入界面和生成结果

第 3 步：优化与调整

观察生成结果，根据以下要点判断是否需要迭代： - 文字是否清晰可读（若汉字模糊，启用”文字渲染”功能） - 人物比例是否自然（若异常，调整”参考图-姿势控制”） - 配色是否符合预期（若偏差较大，在提示词中补充具体色值）

小结：平面设计的 AI 辅助流程可概括为”明确规格→构建提示词→生成→人工判断→迭代”。AI 生成的是原材料，最终作品的品质取决于设计者对美学目标的清晰把握。

拓展任务·美育融合：“美育资源推荐官”

完成以下两项任务： 1. 名画分析：选择一幅经典名画（如莫奈《睡莲》、范宽《溪山行旅图》），将其上传给 AI，要求从光线、色彩、构图三个维度进行赏析，并生成一段适合课堂使用的讲解文案； 2. 二十四节气教学卡片：选择 4 个节气，使用即梦 AI 为每个节气生成一张插画风格的教学卡片，要求画面体现该节气的自然特征和民俗元素。

阅读材料：阿里”鹿班”系统——每秒生成 8000 张海报的背后

2018 年”双十一”期间，阿里巴巴的 AI 设计系统”鹿班”在短短几天内生成了超过 4 亿张商品海报，峰值速度达到每秒 8000 张。鹿班的工作原理是：学习大量优秀设计师的作品，提取构图规律、配色方案和排版模式，然后根据商品信息自动组合生成海报。

这一案例揭示了 AI 设计的核心优势——规模化生产。对于电商平台上数以亿计的商品，人工逐一设计海报是不可能的，而 AI 可以在极短时间内完成这一任务。但同时也要看到，鹿班生成的海报主要服务于标准化的电商场景，对于需要独特创意和情感表达的设计任务，人类设计师仍然不可替代。

思辨时刻：AI 生成的画作是否具有艺术性？

2022 年，Jason Allen 使用 Midjourney 生成的作品《太空歌剧院》在美国科罗拉多州博览会的数字艺术比赛中获得一等奖，引发了巨大争议。反对者认为这是”作弊”，支持者则认为提示词的编写本身就是一种创作。

思考以下问题： 1. 如果一幅画的视觉效果与人类画家的作品无法区分，它是否具有同等的”艺术价值”？ 2. 当 AI 模仿某位艺术家的风格生成作品时，这是”致敬”还是”侵权”？风格本身能否被版权保护？ 3. 未来的美术教育应该如何应对 AI 绘画的冲击？

本章小结

本章从文生图技术原理讲起，建立系统化的视觉提示词方法论，并通过即梦 AI 的进阶操作和平面设计实战，帮助读者从”随机出图”升级为”精准控图”。学习 AI 绘画的过程，也是一次视觉素养的系统提升。

小节	核心内容	关键概念
4.1 文生图原理与工具对比	解析扩散模型”从噪声中雕刻图像”的基本原理，对比主流工具的优缺点	扩散模型、CLIP、工具选型
4.2 提示词美学	建立”主体+环境+风格+光影+色彩+构图”的视觉提示词公式，系统提升画面质量	光影、材质、色彩、构图
4.3 即梦 AI 进阶操作	掌握参考图控制、局部重绘和文字渲染等高级功能，实现对画面的精准控制	参考图、局部重绘、文字渲染
4.4 平面设计实战	完成从需求分析到最终定稿的完整海报设计流程，将 AI 生成与排版设计结合	海报设计、AI 辅助设计流程

AI 不缺画技，缺的是想法和审美。掌握精准的视觉描述能力，便能将创意转化为令人惊艳的视觉作品。下一章将从静态图像走向动态声画，探索 AI 音频与视频创作。

第四章实践与练习

审美是在一次次”生成”与”重绘”中磨练出来的。

一、选择题

扩散模型生成图像的核心过程是：
- A. 从数据库中检索最相似的图片
- B. 从随机噪声出发，逐步去噪生成清晰图像
- C. 将文字直接转换为像素点
- D. 拼接已有图片的局部区域
CLIP 模型在文生图中的作用是：
- A. 提升图片的分辨率
- B. 在文字描述和图像之间建立语义桥梁
- C. 自动优化提示词的语法
- D. 压缩图片文件大小
以下哪组提示词最可能生成温暖治愈风格的画面？
- A. Neon lights, Cyberpunk, Dark tone
- B. Golden hour, Soft light, Warm tone
- C. Hard light, High contrast, Cold light
- D. Bottom light, Dark silver, Post-apocalyptic
即梦 AI 的”局部重绘”功能适用于：
- A. 修改整张图片的风格
- B. 只修改图片中选定区域，保持其余部分不变
- C. 将图片转换为视频
- D. 自动生成提示词

二、简答题

请用自己的话解释扩散模型的工作原理，并说明提示词是如何影响生成结果的。
“光—材质—色彩”三维度框架中，每个维度分别控制画面的什么方面？请各举一个关键词示例。

三、实操题

风格对比实验：选择一个简单主体（如”一朵向日葵”），使用即梦 AI 分别生成写实摄影风格、水彩插画风格和赛博朋克风格三个版本。记录每次使用的提示词，并分析三张图片在光线、色调和氛围上的差异。
海报设计：为所在学校的某个活动设计一张宣传海报。要求：使用”主题+标题文字+视觉主体+配色+排版”公式撰写提示词，生成至少 3 个方案，选出最佳方案并使用局部重绘优化。

参考答案（选择题）：1-B 2-B 3-B 4-B

四、进阶挑战：个人 IP 形象设计

背景：你想在社交媒体上做一个读书博主，需要一个卡通头像作为个人 IP。

步骤：

设定：确定你的形象特征（如：戴眼镜、卷发、抱着猫）。
生成：用即梦 AI 生成头像。风格建议：3D 盲盒风（Pop Mart Style）或 2D 手绘风。
三视图：尝试生成这个角色的”三视图”（正面、侧面、背面），这对于保持角色一致性很难，是个挑战。提示词参考：character sheet, three views (front, side, back), white background。

提交：形象设定描述 + 提示词 + 生成的头像图 + 三视图尝试结果。

五、思辨与讨论

当人人都能用 AI 在几秒钟内生成”大师级”画面时，传统绑画技法的价值是否消失了？一幅需要画家三个月完成的油画，和一张 AI 三秒生成的同等画面，它们的”价值”相同吗？如果不同，差在哪里？
在 4.1 节的 CLIP 偏见实验中，AI 对”CEO”和”护士”的默认形象反映了什么社会问题？作为 AI 的使用者，我们能做什么来减少这种偏见的传播？
AI 降低了”美”的生产门槛，但是否也降低了人们对”独特性”和”原创性”的追求？当社交媒体上充斥着风格雷同的 AI 美图时，什么样的作品才能真正打动人？

六、延伸阅读

网站：Civitai —— 全球最大的 Stable Diffusion 模型社区（欣赏高阶作品，学习提示词）
伦理：关于”AI 生成图片版权归属”的最新法律判例（如美国版权局关于《黎明的查拉》的裁定）