第四章 图像驾驭——AI 绘画与视觉设计
本章摘要: “我不会画画,但我有审美。”这句话在 AI 时代成为了现实。本章将带领读者进入 AI 绘画的神奇世界,揭开”文生图”背后的技术面纱,学习如何用文字控制光影、材质和构图,并掌握国产工具即梦 AI 的高级功能。最终,读者将能够独立完成海报、插画乃至产品设计图的创作。
知识图谱

导言:人人都是艺术总监
文字之外,视觉是信息传达的另一个核心维度。海报、Logo、插画、产品图——这些过去需要专业设计师才能完成的工作,如今借助 AI 绘画工具,普通人也能快速产出高质量的视觉作品。
但”能生成图片”和”能生成好图片”之间,隔着一道审美素养的门槛。AI 不缺画技,它缺的是想法和审美——你知道什么是”赛博朋克”吗?你知道”丁达尔效应”的光是什么样的吗?你知道如何用”构图”引导观众的视线吗?如果你能用精准的词汇描述出这些,AI 就能为你画出惊艳的作品。从这个意义上说,学习 AI 绘画的过程,也是一次视觉素养的补课——即使不打算成为设计师,学会欣赏美、描述美,本身就是通识教育的重要一环。
本章将从文生图的技术原理讲起,介绍一套系统化的视觉提示词方法论,并通过即梦 AI 的进阶操作和平面设计实战,帮助读者从”随机出图”升级为”精准控图”。
学习目标
完成本章学习后,读者将能够:
- 解释 扩散模型(Diffusion Model)“从噪声中雕刻图像”的基本原理;
- 对比 Midjourney、Stable Diffusion 和即梦 AI 的优缺点,并根据需求选择工具;
- 应用 提示词美学公式(主体+环境+风格+光影+色彩+构图),生成高质量图像;
- 操作 即梦 AI 的参考图控制、局部重绘和文字渲染功能;
- 设计 一张完整的活动海报,将 AI 生成的图像与排版设计结合。
4.1 文生图原理与工具对比
输入一段文字,AI 就能生成一幅图像——这背后的技术原理是什么?不同工具各有什么特点?理解原理,才能写出更好的提示词。
一、为什么需要了解原理
可能会想:我只是想用 AI 画图,为什么要了解技术原理?原因很简单——理解原理能帮助写出更好的提示词。当了解了 AI 是如何”理解”文字并将其转化为图像的,就能更有针对性地描述画面,避免无效的关键词堆砌。
二、扩散模型:从噪声中”雕刻”出图像
当前主流的 AI 绘画工具(如 Midjourney、Stable Diffusion、即梦 AI)大多基于扩散模型(Diffusion Model)。
扩散模型的工作原理可以用一个比喻来理解:
想象面前有一张清晰的照片。现在,往照片上不断撒沙子(添加噪声),直到照片完全被沙子覆盖,变成一片模糊的噪点。这个过程叫正向扩散。
扩散模型要学习的,是这个过程的逆过程——从一堆随机噪点出发,一步一步去除噪声,最终”雕刻”出一张清晰的图像。这个过程叫逆向扩散。
还有一个更生活化的比喻:扩散模型就像一位经验丰富的大厨。正向扩散好比把一道精美的菜肴搅成一团糊——大厨要学会的是逆过程:看着这团糊,凭借经验一步步还原出原来的菜品。训练过程中,大厨见过成千上万道菜被搅糊再还原的过程,所以最终他能从任意一团”噪声糊”中,按照文字描述(菜单)“烹饪”出对应的画面。
正向扩散:清晰图像 → 逐步加噪 → 纯噪声
逆向扩散:纯噪声 → 逐步去噪 → 清晰图像
用一个更直观的方式来理解这个过程:
正向扩散(训练时学习):
🏛️ 清晰雕像 → 🏛️░ 蒙上薄纱 → ░░░░ 堆满沙砾 → ▓▓▓▓ 纯噪声
逆向扩散(生成时执行):
▓▓▓▓ 纯噪声 → ░░░░ 隐约轮廓 → 🏛️░ 细节浮现 → 🏛️ 清晰图像
↑ 提示词在这里介入,引导"雕刻"方向
就像米开朗基罗说的:“雕像本来就在石头里,我只是把多余的部分去掉。”扩散模型做的事情类似——图像”藏”在噪声中,模型按照提示词的指引,一步步把它”雕”出来。
当输入一段文字提示词时,模型会将文字语义作为”导航信号”,引导去噪过程朝着符合描述的方向进行。这就是为什么不同的提示词会生成完全不同的图像。
三、CLIP:让 AI “看懂”文字
扩散模型知道如何从噪声中生成图像,但它怎么知道该生成”什么”图像呢?这就需要另一个关键组件——CLIP(Contrastive Language-Image Pre-training)。
CLIP 是 OpenAI 开发的一个”翻译官”模型。它的作用是在文字和图像之间建立桥梁。可以这样理解:
输入”一只橘猫在阳光下打盹”
CLIP 将这段文字转换为一组数字(向量),这组数字编码了”橘猫”“阳光”“打盹”等语义信息
扩散模型在去噪过程中,不断参考这组数字,确保生成的图像与文字描述匹配
这就解释了一个重要的实操规律:提示词中的每个关键词都会影响最终画面。如果写了”橘猫,阳光,打盹,赛博朋克,水彩风格”,CLIP 会试图同时满足所有关键词,可能导致画面风格混乱。因此,提示词要有主次之分,核心描述放前面,风格修饰放后面。
□ 术语卡片 > CLIP:一种将文字和图像映射到同一数学空间的模型。它让 AI 能够理解”这段文字描述的是什么样的画面”,是文生图技术的核心桥梁。
思辨时刻:AI 的”视觉直觉”从哪里来?
试着在即梦 AI 中输入”一位 CEO”,观察生成的人物形象。再输入”一位护士”,对比结果。大概率会发现:CEO 多为西装革履的中年男性,护士多为年轻女性。这不是 AI 的”偏见”,而是训练数据的忠实反映——互联网上标注为”CEO”的图片确实以男性为主,标注为”护士”的图片以女性为主。AI 学到的不是”事实”,而是数据中的统计规律,而这些规律往往携带着社会的刻板印象。意识到这一点,才能在使用 AI 生成图像时保持清醒。
四、GAN:另一条技术路线
在扩散模型流行之前,GAN(生成对抗网络)曾是 AI 图像生成的主流技术。GAN 的核心思想非常巧妙——让两个神经网络互相”对抗”:
生成器(Generator):负责”画画”,试图生成以假乱真的图像;
判别器(Discriminator):负责”鉴定”,试图分辨哪些是真图、哪些是生成的假图。
两者不断博弈:生成器越画越逼真,判别器越辨越精准,最终生成器能产出肉眼难辨的高质量图像。这就像一个造假画师和一个鉴定专家的较量——双方都在进步。
GAN 发展出了多个重要变体:
表4-1 GAN主要变体对比
| 变体 | 特点 | 应用场景 |
|---|---|---|
| StackGAN | 先生成低分辨率草图,再逐步细化为高清图像 | 文字生成高清图片 |
| CycleGAN | 无需配对数据,实现两种风格之间的互相转换 | 照片↔︎油画、马↔︎斑马 |
| StyleGAN | 精细控制生成图像的风格特征(如面部表情、发型) | 人脸生成、风格混合 |
为什么现在扩散模型更主流? GAN 训练不稳定,容易出现”模式崩塌”(生成器只学会画少数几种图片)。扩散模型训练更稳定,生成质量更高,因此逐渐成为主流。但 GAN 在实时生成和风格迁移等场景中仍有独特优势。
五、主流工具对比
表4-2 主流AI图像生成工具对比
| 工具 | 开发方 | 优势 | 局限 | 适合人群 |
|---|---|---|---|---|
| 即梦 AI | 字节跳动 | 中文友好,支持文字渲染,免费额度充足 | 艺术风格相对有限 | 入门用户、中文场景 |
| Midjourney | Midjourney Inc. | 艺术质感强,画面精致 | 需付费,英文提示词 | 设计师、艺术创作 |
| DALL·E | OpenAI | 与 ChatGPT 深度集成,对话式出图 | 风格可控性较弱 | ChatGPT 用户、快速出图 |
| Stable Diffusion | Stability AI | 开源免费,可本地部署,高度可定制 | 上手门槛高,需要配置环境 | 技术用户、批量生产 |
选择建议:
课堂教学和日常使用:推荐即梦 AI,中文界面、操作简单、免费额度足够练习;
追求艺术效果:推荐 Midjourney,画面质感和风格表现力最强;
需要批量生成或深度定制:推荐 Stable Diffusion,开源生态丰富。
本教材后续实操以即梦 AI 为主要演示工具。
六、实操演示:用即梦 AI 完成第一张 AI 画作
第 1 步:打开即梦 AI(jimeng.jianying.com),注册并登录。
进入首页后,点击”AI 绘画”或”文生图”功能入口。

第 2 步:输入提示词,生成第一张图片。
在提示词输入框中输入:
一只橘色的猫咪趴在窗台上晒太阳,窗外是秋天的银杏树,
暖色调,柔和的自然光,治愈系插画风格
选择图片比例(推荐 16:9 横版),点击”生成”。

第 3 步:查看生成结果。
即梦 AI 通常会一次生成 4 张备选图片。观察这 4 张图片:

哪张最符合预期?
哪些细节与提示词描述一致,哪些有偏差?
猫咪的姿态、窗外的场景、整体色调是否满意?
第 4 步:尝试修改提示词,对比效果差异。
将提示词改为:
一只橘色的猫咪趴在窗台上晒太阳,窗外是秋天的银杏树,
冷色调,电影感光影,写实摄影风格,浅景深,8K
对比两次生成的结果,会发现:仅仅改变了色调和风格描述,画面的氛围就完全不同了。这就是提示词的力量——下一节我们将系统学习如何写出更好的视觉提示词。
常见问题
Q1:为什么同样的提示词,每次生成的图片都不一样?
因为扩散模型的起点是随机噪声。每次生成时,随机噪声不同,去噪路径也不同,所以结果会有差异。这不是 bug,而是特性——它让每次都能获得新的创意方案。
Q2:提示词用中文还是英文效果更好?
即梦 AI 对中文支持很好,日常使用中文即可。但如果追求更精确的风格控制,可以在风格关键词部分使用英文(如 Cyberpunk、Impressionism),因为模型的训练数据中英文艺术术语更丰富。
4.2 提示词美学——写出好画面的方法论
同样是”画一只猫”,为什么有人生成的是手机壁纸级大片,有人得到的却是”AI 味”十足的塑料感图片?差距就在提示词的”美学定义”上。
一、审美三维度框架:光、材质、色彩
优秀的视觉提示词不是关键词的随意堆砌,而是对画面进行系统化的”美学定义”。参考相关研究的框架 [4],我们可以从三个维度来构建画面的视觉基础。
1. 光(Light)——画面的情绪开关
光是塑造氛围的第一要素。不同的光线设置会让同一个主体呈现截然不同的情绪。但在记住这些关键词之前,不妨先想想”为什么”:为什么”黄金时刻”的侧光会让人感到温暖?因为低角度的暖色阳光模拟了人类记忆中最安全的时刻——傍晚归家时的光线。为什么底光会让人感到恐怖?因为自然界中几乎不存在从下方照射的光源,它违反了视觉经验,触发了本能的不安。理解了光线背后的心理机制,选择关键词就不再是死记硬背,而是有据可循。
表4-3 光线维度提示词与画面效果
| 维度 | 选项 | 效果与关键词 |
|---|---|---|
| 光源 | 自然光 | 随时间变化,如 Golden hour(黄金时刻)、Morning light(晨光) |
| 人工光 | 稳定可控,如 Cinematic lighting(电影照明)、Studio lighting(摄影棚灯光) | |
| 质感 | 柔光 | 散射、无明显阴影,温暖浪漫。关键词:Soft light, Diffuse light |
| 硬光 | 直射、阴影浓重,立体感强。关键词:Hard light, High contrast | |
| 光位 | 逆光 | 勾勒轮廓光晕,梦幻感。关键词:Backlight, Rim light |
| 侧光 | 明暗对比强烈,强调轮廓。关键词:Side light | |
| 底光 | 营造恐怖、阴森氛围。关键词:Bottom light | |
| 光色 | 暖光 | 亲切温馨。关键词:Warm light, Sun-kissed |
| 冷光 | 清冷疏离。关键词:Cold light, Blue tone |
实操提示:在提示词中加入 Golden hour, Soft light, Backlight 三个词,就能让一张普通的人像照片瞬间拥有”电影感”。
2. 材质(Material)——画面的触感密码
材质决定了画面传递的”触感”和心理感受。以下是八种常用的材质方向:
表4-4 材质方向与画面心理感受
| 材质方向 | 心理感受 | 典型关键词 |
|---|---|---|
| 轻软棉绒 | 舒适、温暖、亲切 | Cotton, Wool, Soft sculptures |
| 原始朴真 | 自然、透气、质朴 | Linen, Natural crude ore, Earthy color palette |
| 坚硬岩铁 | 冷峻、坚固、疏离 | Volcanic rocks, Liquid metal, Dark silver |
| 梦幻薄纱 | 清透、飘逸、浪漫 | Colored gauze, Flowing fabrics, Translucent |
| 鎏金光芒 | 高贵、奢华、庄重 | Golden light, Porcelain, Baroque |
| 迷幻光影 | 炫彩、科技、未来 | Holographic, Iridescent, Refractive surfaces |
| 欢趣色彩 | 活泼、怪诞、童趣 | Furry art, Rubber, Pop colorism |
| 末世废土 | 破败、沧桑、末日 | Rust, Decay, Post-apocalyptic |
3. 色彩(Color)——画面的情绪基调
色彩是最直观的情绪表达工具。以下是几种常用的配色方案:
莫兰迪色系(Morandi):低饱和度、灰调柔和,传递”高级感”和宁静感。为什么莫兰迪色会显得”高级”?因为低饱和度减少了视觉刺激,让画面呈现出克制与内敛的气质——这与奢侈品牌偏爱灰调的逻辑一致;
多巴胺色系(Dopamine):高饱和度、鲜艳明快,传递活力和愉悦感;
美拉德色系(Maillard):棕色调为主的大地色,传递温暖和复古感;
有限色域(Limited color range):仅使用 2—3 种颜色,画面更具设计感和统一性。
中国传统色:被低估的美学宝库
除了西方色彩体系,中华传统色同样值得在 AI 创作中探索。这些颜色不仅是视觉符号,更承载着文化意象:
表4-5 中国传统色与文化意象
| 传统色名 | 色彩描述 | 文化意象 | 提示词参考 |
|---|---|---|---|
| 天青 | 雨过天晴的淡蓝 | 汝窑瓷器、清雅脱俗 | 天青色、汝窑釉色;Celadon blue, Ru ware glaze |
| 胭脂 | 偏紫的深红 | 古典女性、含蓄热烈 | 胭脂红、中式古典红妆;Carmine, Traditional Chinese rouge |
| 黛绿 | 深沉的墨绿 | 远山如黛、水墨意境 | 黛绿色、水墨青山;Dark jade green, Chinese ink wash |
| 月白 | 微微泛蓝的白 | 月光、素净、留白 | 月白色、清冷月光;Moonlight white, Pale blue-white |
| 赭石 | 暖调的红棕 | 大地、古朴、敦煌壁画 | 赭石色、敦煌壁画色调;Ochre, Dunhuang mural palette |
尝试在即梦 AI 中输入 Chinese ink wash painting style, 留白, 天青色背景, 工笔重彩 等关键词,会发现 AI 能生成极具东方韵味的作品。用新技术表达传统美学,本身就是一种文化传承。
二、风格要素:用艺术流派定义画面基调
在提示词中指定艺术流派或艺术家名字,可以快速奠定画面的整体风格。
表4-6 主要艺术风格流派提示词
| 风格 | 特点 | 关键词示例 |
|---|---|---|
| 宋代山水 | 细腻写实、庄重留白 | Northern Song Dynasty, Fan Kuan, Ink painting |
| 印象派 | 光影变化、笔触明显 | Impressionism, Monet, Dappled light |
| 巴洛克 | 华丽戏剧、动态感强 | Baroque, Dramatic lighting, Grandeur |
| 穆夏/新艺术 | 装饰性线条、花卉女性 | Alphonse Mucha, Art Nouveau, Art Deco |
| 赛博朋克 | 霓虹光感、科技废墟 | Cyberpunk, Neon lights, Future punk |
| 超现实主义 | 梦境荒诞、视觉错位 | Surrealism, Salvador Dalí, Dream-like |
思政融入:文化自信与中华美学传承:上表中的”宋代山水”只是中华视觉传统的冰山一角。从敦煌壁画的飞天线条,到明清瓷器的青花意韵,再到”中国传统色”中的月白、黛绿、胭脂,中华美学拥有独立于西方体系的完整审美语言。在使用 AI 进行图像创作时,不妨有意识地探索这些传统元素——用 AI 工具传承和创新中华文化,而非仅仅模仿西方艺术风格。这既是文化自信的体现,也是让 AI 生成作品具有辨识度的有效策略。
三、应用方向:让 AI 理解画面的”用途”
明确告诉 AI 画面的用途,它会自动调整构图、细节和渲染方式。
表4-7 AI图像生成应用方向与关键词
| 应用方向 | 特点 | 关键词示例 |
|---|---|---|
| 产品摄影 | 质感突出、主体清晰 | Commercial photography, Product poster, Depth of field, 8K |
| 游戏原画 | 氛围感强、世界观宏大 | Game poster, Concept art, Unreal Engine, Dynamic poses |
| 电影海报 | 故事感、视觉冲击力 | Movie poster, Theatrical lighting, Wide shot |
| 商业插画 | 扁平装饰、色彩鲜明 | Flat illustration, Vector art, Vibrant colors |
四、提示词公式与实例
综合以上三个维度,一个高质量的文生图提示词通常遵循以下结构:
[主体描述] + [审美要素:光/材质/色彩] + [风格要素:流派/艺术家] + [应用方向:用途/画质/视角]
示例对比:
表4-8 提示词完整度对生成效果的影响
| 提示词 | 预期效果 |
|---|---|
| 一只猫 | 随机风格,质量不可控 |
| 一只白色长毛猫,Golden hour, Soft light, Backlight, 莫兰迪色系, 商业摄影风格, 浅景深, 8K | 温暖柔和的高质感宠物摄影 |
| 机械少女,Neon lights, Holographic, Translucent jacket, Cyberpunk style, Movie poster, Unreal Engine 5, 8K | 赛博朋克风格的科幻电影海报 |
小贴士:不需要每次都填满所有维度。根据需要选择 2—3 个关键维度重点描述即可。过多的关键词反而可能导致 AI “顾此失彼”。
五、实操演示:同一主体,不同参数的效果对比
下面通过一个完整的实操,直观感受不同美学参数对画面的影响。
任务:以”一杯咖啡”为主体,通过改变光线、材质和风格参数,生成三张风格迥异的图片。
第 1 步:打开即梦 AI,输入基础提示词。

一杯拿铁咖啡放在木桌上,拉花清晰可见,
自然光,写实摄影风格,浅景深,8K
观察生成结果:这是一张标准的产品摄影风格图片,画面干净、光线自然。

第 2 步:改变光线和色调,生成”电影感”版本。
一杯拿铁咖啡放在木桌上,拉花清晰可见,
Golden hour, Side light, Warm tone,
电影画面质感,胶片颗粒感,Cinematic lighting
对比第一张:画面变得更有氛围感,侧光让咖啡杯产生了明暗对比,暖色调营造出午后的慵懒感。
第 3 步:改变材质和风格,生成”赛博朋克”版本。
一杯拿铁咖啡放在金属桌面上,
Neon lights, Holographic, Cyberpunk style,
霓虹灯倒映在咖啡表面,未来感场景,8K
对比前两张:同样是一杯咖啡,但画面风格完全不同——从温馨写实变成了科幻未来。
对比总结:
表4-9 同一主体不同参数生成效果对比
| 版本 | 光线 | 材质/色调 | 风格 | 画面感受 |
|---|---|---|---|---|
| 写实版 | 自然光 | 木桌 | 产品摄影 | 干净、专业 |
| 电影版 | 黄金时刻侧光 | 暖色调 | 电影质感 | 温暖、有故事感 |
| 赛博版 | 霓虹灯光 | 金属+全息 | 赛博朋克 | 科幻、未来感 |
这个实验说明:提示词中的美学参数决定了画面的”情绪”。掌握了光、材质、色彩三个维度,就能精准控制 AI 生成的画面氛围。
4.3 即梦 AI 进阶操作
掌握基础的文生图之后,即梦 AI 还提供了一系列进阶功能,从”碰运气出图”升级为”精准控图”。
一、参考图功能:用图片引导生成
纯文字描述有时难以精确传达想要的构图、姿势或风格。参考图功能允许上传一张图片作为”视觉锚点”,AI 会在此基础上进行创作。这个功能特别适合”我想要类似这种感觉”的场景。
实操演示:将一张手机照片转换为水彩插画风格
第 1 步:在即梦 AI 的生成界面,点击”+“按钮上传一张用手机拍摄的校园风景照片作为参考图。

第 2 步:在提示词框中输入:水彩插画风格,柔和色调,手绘质感,艺术感
第 3 步:点击生成,观察结果。AI 会保留原照片的构图和主要元素,但将画面风格转换为水彩插画。
典型应用: 上传一张产品线稿,生成不同风格的渲染效果图;
上传一张人物姿势参考,生成相同姿势的不同角色;
上传一张配色参考,让 AI 按照相同色调生成新画面。
二、文字渲染:解决 AI “写假字”的难题
AI 生成图像时,画面中的文字往往是”乱码”或”假汉字”——这是因为扩散模型擅长生成视觉图案,但并不真正”理解”文字的笔画结构。
即梦 AI 提供了专门的文字渲染功能来解决这一问题:
操作方法:
- 在提示词中用引号标注需要渲染的文字,例如:
海报上写着"科技改变未来"; - 或使用即梦 AI 的”文字渲染”专用功能区,单独输入需要出现在画面中的文字;
- 可指定文字的位置(顶部/底部/居中)、字体风格(书法/现代/手写)。
注意事项: 文字内容尽量简短(建议不超过 8 个汉字),过长的文字容易出现错误;
英文文字的渲染准确率通常高于中文;
生成后务必检查文字是否正确,必要时可通过后期编辑软件修正。
三、局部重绘:对生成图像的精准修改
生成一张整体满意但局部有瑕疵的图片时,不必重新生成整张图。局部重绘功能允许选中特定区域进行修改,同时保持其余部分不变。
从更深层的角度看,每一次局部重绘都是一次审美决策:你在告诉 AI”这里不对,我要的是那样”。这个过程训练的不仅是工具操作,更是将脑中模糊的视觉想象转化为精确指令的能力——先感觉到”哪里不对”,再分析”为什么不对”,最后表达”应该怎样”。这种从模糊到精确的思维过程,在任何需要视觉判断的工作中都用得上。
操作步骤:
- 选择一张已生成的图片,点击”局部重绘”;
- 用画笔涂抹需要修改的区域;
- 在提示词中描述希望该区域变成什么样子;
- 点击生成,AI 只会重新绘制涂抹区域。

常见应用场景:
表4-10 局部重绘常见应用场景
| 场景 | 操作方式 |
|---|---|
| 修复手部畸形 | 涂抹手部区域,提示词写”自然的手部姿态” |
| 更换背景元素 | 涂抹背景中不满意的部分,描述新的背景内容 |
| 调整人物表情 | 涂抹面部区域,描述期望的表情 |
| 添加配饰 | 涂抹目标位置,描述要添加的物品 |
四、商品图背景替换:产品融入场景
这是电商运营和产品展示中非常实用的功能——将产品从白底图中”搬”到各种场景中。
操作流程:
- 上传产品的白底图或线稿;
- 在提示词中描述期望的场景背景,例如:
产品放置在大理石桌面上,背景是落地窗外的城市天际线,自然光照射,商业摄影风格; - 通过提示词强调保留产品主体的完整性;
- 生成多张备选,挑选光影最自然的一张。
提示词模板:
[产品描述],放置在[场景描述],[光线描述],[风格描述],商业产品摄影,高清细节
主线任务:使用即梦 AI 的参考图功能进行风格转换
找一张喜欢的照片(风景、人物或静物均可),上传为参考图,尝试将其转换为至少两种不同的艺术风格(如水彩风格、赛博朋克风格),对比生成效果。
拓展任务:商品场景图制作
选择一件日常物品(如水杯、书本、文具),拍摄一张简单的照片,使用即梦 AI 将其融入三种不同的场景背景中。
4.4 平面设计实战
海报、Logo、宣传图——这些过去需要专业设计师才能完成的工作,现在可以通过 AI 快速产出初稿,再经人工精调完成。
一、AI 辅助设计的基本流程
无论是海报、Logo 还是宣传图,AI 辅助平面设计通常遵循以下流程:
明确需求 → 撰写提示词 → AI 生成初稿 → 筛选方案 → 人工精调 → 最终定稿
但在动手写提示词之前,先停下来想三个问题:这个设计是给谁看的?想传达什么信息或情绪?在什么场景下被看到? 一张校园招新海报和一张公益环保海报,即使画面同样精美,设计逻辑完全不同——前者要在食堂门口的嘈杂环境中”抢眼球”,后者要在安静的展厅里”触动人心”。想清楚这些,再写提示词,才不会陷入”盲目追求酷炫画面”的误区。
二、智能海报提示词公式
海报设计的提示词可以按照以下公式组织:
主题 + 标题文字 + 视觉主体 + 配色方案 + 排版风格
示例:科技文化节宣传海报

科技文化节宣传海报,标题文字"未来已来",
视觉主体为一个发光的数字地球与飞翔的纸飞机,
配色使用深蓝色与亮青色的科技感渐变,
排版风格简洁现代,标题居中偏上,底部留出活动信息区域,
8K 高清,平面设计风格
不同类型海报的要素侧重:
表4-11 不同类型海报要素设计建议
| 海报类型 | 视觉主体建议 | 配色建议 | 排版建议 |
|---|---|---|---|
| 校园活动 | 与活动主题相关的具象元素 | 明快活泼,多巴胺色系 | 信息层次清晰,突出时间地点 |
| 商业促销 | 产品实物或使用场景 | 红色/橙色等暖色调,制造紧迫感 | 价格信息醒目,行动号召突出 |
| 文化展览 | 艺术化的抽象元素 | 莫兰迪色系或主题相关色调 | 留白充足,强调艺术感 |
| 公益宣传 | 情感化的人物或场景 | 柔和色调,避免过度刺激 | 文字精炼,情感传递优先 |
三、Logo 设计的 AI 辅助方法
Logo 设计对简洁性和辨识度要求极高,AI 生成的 Logo 通常需要较多的后期调整,但可以作为灵感来源和初稿方案。
提示词模板:
为[品牌/组织名称]设计一个 Logo,
品牌定位是[定位描述],
风格要求[风格关键词],
使用[颜色]配色,
简洁的矢量图形风格,白色背景,
适合印刷和屏幕显示
注意事项: AI 生成的 Logo 通常需要用矢量设计软件(如 Illustrator)重新描摹,才能用于正式场合;
生成多个方案(建议 10 个以上),从中筛选最有潜力的方向;
Logo 中的文字部分建议后期手动添加,避免 AI 生成的文字出现错误。
四、从 AI 初稿到最终成品
AI 生成的设计稿很少能直接使用,通常需要以下精调步骤:
- 筛选方案:从多张生成结果中选出构图和风格最接近需求的 1—2 张;
- 局部修正:使用即梦 AI 的局部重绘功能修复瑕疵;
- 文字处理:在设计软件中重新添加准确的文字内容;
- 格式输出:根据用途导出合适的格式和尺寸(印刷用 300dpi、屏幕用 72dpi)。
主线任务:设计一张科技文化节宣传海报
使用即梦 AI,按照”主题 + 标题文字 + 视觉主体 + 配色 + 排版”公式,设计一张校园科技文化节宣传海报。要求: 1. 尝试至少 3 种不同的提示词方案; 2. 从生成结果中选出最佳方案,使用局部重绘进行优化; 3. 记录提示词迭代过程和选择理由。
五、实战:社交媒体封面图设计
各类平台对封面图尺寸和风格有不同要求,AI 可以快速生成符合规格的视觉素材。以小红书笔记封面为例,演示完整的 AI 辅助设计流程。
任务:为一篇题为”大学生必学的5个AI工具”的小红书笔记设计封面图。
第 1 步:明确设计需求
在动手生成图片之前,先梳理封面图的核心要素: - 平台规格:小红书封面尺寸建议为 3:4 竖版(如 1080×1440px) - 视觉主体:突出主题感、高点击率的配色和文字排版 - 目标受众:大学生群体,风格偏活泼、现代
第 2 步:构建提示词
根据审美三维度框架,按”主题 + 文字 + 视觉主体 + 配色 + 排版 + 风格”公式构建提示词:
小红书封面图,标题文字"大学生必学的5个AI工具",
视觉主体为正在使用电脑和手机的年轻人,
配色使用莫兰迪粉蓝撞色,现代简约风格,
竖版3:4构图,留白充足,杂志版式,8K高清
📷 【截图位置】:即梦 AI 生成的封面图效果,展示提示词输入界面和生成结果
第 3 步:优化与调整
观察生成结果,根据以下要点判断是否需要迭代: - 文字是否清晰可读(若汉字模糊,启用”文字渲染”功能) - 人物比例是否自然(若异常,调整”参考图-姿势控制”) - 配色是否符合预期(若偏差较大,在提示词中补充具体色值)
小结:平面设计的 AI 辅助流程可概括为”明确规格→构建提示词→生成→人工判断→迭代”。AI 生成的是原材料,最终作品的品质取决于设计者对美学目标的清晰把握。
拓展任务·美育融合:“美育资源推荐官”
完成以下两项任务: 1. 名画分析:选择一幅经典名画(如莫奈《睡莲》、范宽《溪山行旅图》),将其上传给 AI,要求从光线、色彩、构图三个维度进行赏析,并生成一段适合课堂使用的讲解文案; 2. 二十四节气教学卡片:选择 4 个节气,使用即梦 AI 为每个节气生成一张插画风格的教学卡片,要求画面体现该节气的自然特征和民俗元素。
阅读材料:阿里”鹿班”系统——每秒生成 8000 张海报的背后
2018 年”双十一”期间,阿里巴巴的 AI 设计系统”鹿班”在短短几天内生成了超过 4 亿张商品海报,峰值速度达到每秒 8000 张。鹿班的工作原理是:学习大量优秀设计师的作品,提取构图规律、配色方案和排版模式,然后根据商品信息自动组合生成海报。
这一案例揭示了 AI 设计的核心优势——规模化生产。对于电商平台上数以亿计的商品,人工逐一设计海报是不可能的,而 AI 可以在极短时间内完成这一任务。但同时也要看到,鹿班生成的海报主要服务于标准化的电商场景,对于需要独特创意和情感表达的设计任务,人类设计师仍然不可替代。
思辨时刻:AI 生成的画作是否具有艺术性?
2022 年,Jason Allen 使用 Midjourney 生成的作品《太空歌剧院》在美国科罗拉多州博览会的数字艺术比赛中获得一等奖,引发了巨大争议。反对者认为这是”作弊”,支持者则认为提示词的编写本身就是一种创作。
思考以下问题: 1. 如果一幅画的视觉效果与人类画家的作品无法区分,它是否具有同等的”艺术价值”? 2. 当 AI 模仿某位艺术家的风格生成作品时,这是”致敬”还是”侵权”?风格本身能否被版权保护? 3. 未来的美术教育应该如何应对 AI 绘画的冲击?
本章小结
本章从文生图技术原理讲起,建立系统化的视觉提示词方法论,并通过即梦 AI 的进阶操作和平面设计实战,帮助读者从”随机出图”升级为”精准控图”。学习 AI 绘画的过程,也是一次视觉素养的系统提升。
| 小节 | 核心内容 | 关键概念 |
|---|---|---|
| 4.1 文生图原理与工具对比 | 解析扩散模型”从噪声中雕刻图像”的基本原理,对比主流工具的优缺点 | 扩散模型、CLIP、工具选型 |
| 4.2 提示词美学 | 建立”主体+环境+风格+光影+色彩+构图”的视觉提示词公式,系统提升画面质量 | 光影、材质、色彩、构图 |
| 4.3 即梦 AI 进阶操作 | 掌握参考图控制、局部重绘和文字渲染等高级功能,实现对画面的精准控制 | 参考图、局部重绘、文字渲染 |
| 4.4 平面设计实战 | 完成从需求分析到最终定稿的完整海报设计流程,将 AI 生成与排版设计结合 | 海报设计、AI 辅助设计流程 |
AI 不缺画技,缺的是想法和审美。掌握精准的视觉描述能力,便能将创意转化为令人惊艳的视觉作品。下一章将从静态图像走向动态声画,探索 AI 音频与视频创作。
第四章 实践与练习
审美是在一次次”生成”与”重绘”中磨练出来的。
一、选择题
- 扩散模型生成图像的核心过程是:
- A. 从数据库中检索最相似的图片
- B. 从随机噪声出发,逐步去噪生成清晰图像
- C. 将文字直接转换为像素点
- D. 拼接已有图片的局部区域
- CLIP 模型在文生图中的作用是:
- A. 提升图片的分辨率
- B. 在文字描述和图像之间建立语义桥梁
- C. 自动优化提示词的语法
- D. 压缩图片文件大小
- 以下哪组提示词最可能生成温暖治愈风格的画面?
- A. Neon lights, Cyberpunk, Dark tone
- B. Golden hour, Soft light, Warm tone
- C. Hard light, High contrast, Cold light
- D. Bottom light, Dark silver, Post-apocalyptic
- 即梦 AI 的”局部重绘”功能适用于:
- A. 修改整张图片的风格
- B. 只修改图片中选定区域,保持其余部分不变
- C. 将图片转换为视频
- D. 自动生成提示词
二、简答题
请用自己的话解释扩散模型的工作原理,并说明提示词是如何影响生成结果的。
“光—材质—色彩”三维度框架中,每个维度分别控制画面的什么方面?请各举一个关键词示例。
三、实操题
风格对比实验:选择一个简单主体(如”一朵向日葵”),使用即梦 AI 分别生成写实摄影风格、水彩插画风格和赛博朋克风格三个版本。记录每次使用的提示词,并分析三张图片在光线、色调和氛围上的差异。
海报设计:为所在学校的某个活动设计一张宣传海报。要求:使用”主题+标题文字+视觉主体+配色+排版”公式撰写提示词,生成至少 3 个方案,选出最佳方案并使用局部重绘优化。
参考答案(选择题):1-B 2-B 3-B 4-B
四、进阶挑战:个人 IP 形象设计
背景:你想在社交媒体上做一个读书博主,需要一个卡通头像作为个人 IP。
步骤:
- 设定:确定你的形象特征(如:戴眼镜、卷发、抱着猫)。
- 生成:用即梦 AI 生成头像。风格建议:3D 盲盒风(Pop Mart Style)或 2D 手绘风。
- 三视图:尝试生成这个角色的”三视图”(正面、侧面、背面),这对于保持角色一致性很难,是个挑战。提示词参考:
character sheet, three views (front, side, back), white background。
提交:形象设定描述 + 提示词 + 生成的头像图 + 三视图尝试结果。
五、思辨与讨论
- 当人人都能用 AI 在几秒钟内生成”大师级”画面时,传统绑画技法的价值是否消失了?一幅需要画家三个月完成的油画,和一张 AI 三秒生成的同等画面,它们的”价值”相同吗?如果不同,差在哪里?
- 在 4.1 节的 CLIP 偏见实验中,AI 对”CEO”和”护士”的默认形象反映了什么社会问题?作为 AI 的使用者,我们能做什么来减少这种偏见的传播?
- AI 降低了”美”的生产门槛,但是否也降低了人们对”独特性”和”原创性”的追求?当社交媒体上充斥着风格雷同的 AI 美图时,什么样的作品才能真正打动人?
六、延伸阅读
- 网站:Civitai —— 全球最大的 Stable Diffusion 模型社区(欣赏高阶作品,学习提示词)
- 伦理:关于”AI 生成图片版权归属”的最新法律判例(如美国版权局关于《黎明的查拉》的裁定)