第五章声画驾驭——AI 音频与视频创作

本章摘要：曾经，制作一段高质量的视频需要一支团队：编剧、摄像、灯光、剪辑、配音、配乐。现在，有了 AI，一个人就是一个剧组。本章将教会读者如何用 AI 生成音乐、克隆声音、制作数字人视频，并把这些技能串联起来，实现全流程的自动化内容创作。

知识图谱

导言：人人都是总导演

文字和图像之外，音频与视频是信息传播最具感染力的形式。一段配乐恰当的短视频、一个数字人播报的课程介绍——这些过去需要专业团队才能完成的工作，如今借助 AI 工具链，一个人就能完成从脚本到成片的全流程。

在短视频时代，“视频力”已经成为和写作力同等重要的表达能力。以前，你的创意可能卡在”我不会画分镜”、“我声音不好听”、“我剪辑软件太难学”上。现在，AI 帮你把这些门槛统统推平——不想出镜？用数字人；不会配乐？用 Suno 生成；不会剪辑？用剪映一键成片。你唯一需要做的，就是像总导演一样，告诉 AI 你要讲什么故事、要什么氛围、要传达什么情感。

但技术门槛的降低也带来一个新问题：当人人都能做视频时，什么才是真正的竞争力？答案是叙事能力——用画面讲故事的能力。工具可以帮你生成画面、配上音乐、合成语音，但”先讲什么、后讲什么、在哪里制造悬念、在哪里释放情绪”，这些叙事节奏的把控仍然是人的功夫。短视频时代的注意力只有前 3 秒，能不能抓住观众，靠的不是特效，而是对人心的理解。

本章将从 AI 音频创作入手，介绍音乐生成和语音合成的基本操作；然后进入 AI 视频制作，学习数字人生成和短视频制作的工作流；最后通过一个全流程综合实战，体验”一人即团队”的 AI 协同创作模式。

学习目标

完成本章学习后，读者将能够：

操作 Suno 生成原创背景音乐，并能通过元标签控制歌曲结构；
应用语音合成（TTS）技术，制作情感丰富的配音或克隆自己的声音；
制作数字人口播视频，实现”不露脸也能出镜”；
构建 “文案 → 语音 → 画面 → 剪辑”的全自动视频生产工作流；
辨识 Deepfake（深度伪造）技术的风险，树立正确的音视频伦理观。

5.1 AI 音频创作

一段合适的背景音乐、一个逼真的 AI 配音——音频是内容创作中常被忽视却至关重要的环节。

一、为什么音频很重要

可能觉得，做内容主要靠文字和画面，音频只是”锦上添花”。但实际上，音频对信息传达的影响远超想象。

心理学研究表明，人类对声音的情绪反应比视觉更快。一段视频如果去掉背景音乐，感染力会下降 40% 以上。想想刷短视频的体验——很多时候，是背景音乐先”抓住”了注意力，然后才开始看画面内容。

微实验：同一画面，不同配乐

不妨做一个简单的思想实验：想象一段 30 秒的校园航拍画面——操场、教学楼、林荫道。如果配上《步步高》，画面立刻变成充满活力的招生宣传片；换成大提琴独奏的《天鹅》，同样的画面瞬间变成毕业季的伤感回忆。画面没有变，变的只是声音——但观众感受到的”故事”完全不同。这说明，声音不只是画面的附属品，它本身就在”讲故事”。理解这一点，才能真正用好 AI 音频工具：生成的不仅是声音，更是情绪。

AI 音频工具的出现，让普通人也能快速制作专业级的音频内容。不需要会乐器、不需要录音棚、不需要专业配音员——只需要描述想要的效果，AI 就能帮助生成。

二、AI 音乐生成：Suno 的使用方法

Suno 是目前最受欢迎的 AI 音乐生成工具之一，用户只需输入文字描述，即可生成包含人声演唱的完整歌曲。2026 年初，Suno 推出了 Studio 1.2 版本，新增多轨编辑、变拍号支持（6/8、7/8 等）和 MIDI 导出功能，已从”玩具”进化为可用于专业音乐制作的生成式音频工作站，全球用户近 1 亿。

基本操作流程：

访问 Suno 官网（suno.com），注册并登录；
点击”Create”进入创作界面；
选择创作模式：
- 简单模式：直接输入一段文字描述（如”一首轻快的校园民谣，关于毕业季的回忆”），AI 自动生成歌词和旋律；
- 自定义模式：分别输入歌词（Lyrics）和风格标签（Style of Music），对生成结果进行更精细的控制。
点击生成，等待约 30 秒即可获得两个版本的完整歌曲。

风格控制关键词：

表5-1 Suno音乐风格控制关键词

风格类型	关键词示例
流行	Pop, Synth-pop, Indie pop
民谣	Folk, Acoustic, Singer-songwriter
电子	Electronic, Lo-fi, Chillwave, EDM
古典	Classical, Orchestral, Piano solo
中国风	Chinese style, Guzheng, Erhu, Pentatonic
氛围	Ambient, Cinematic, Meditation

提示词示例：

Style: Acoustic folk, warm, nostalgic
Lyrics:
[Verse]
九月的风吹过操场
书包里装满了阳光
[Chorus]
那些年我们一起走过的路
每一步都算数

实操演示：用 Suno 为校园活动生成一首主题曲

第 1 步：打开 Suno（suno.com），登录后点击”Create”，切换到自定义模式（Custom）。

第 2 步：在”Style of Music”栏输入风格标签：

Chinese style, Pop, Upbeat, Youth, Energetic

第 3 步：在”Lyrics”栏输入歌词：

[Verse 1]
教室里的灯还亮着
键盘敲出新的可能
AI 不只是一串代码
它是我们探索世界的眼睛

[Chorus]
用智慧点亮未来
每一次提问都是起跑线
用 AI 打开新世界
我们的故事才刚刚开始

[Verse 2]
操场上的风带着期待
屏幕里的世界无限宽广
从文字到画面到声音
每一步都有 AI 在身旁

[Chorus]
用智慧点亮未来
每一次提问都是起跑线
用 AI 打开新世界
我们的故事才刚刚开始

第 4 步：点击”Create”，等待生成。Suno 会输出两个版本，可以试听后选择更满意的一个。

第 5 步：点击歌曲右侧的下载按钮，保存为 MP3 文件。

歌词写作技巧：

使用 [Verse]、[Chorus]、[Bridge] 等标签标注歌曲结构，AI 会据此安排旋律变化；

每行歌词控制在 10—15 个字，过长会导致演唱节奏不自然；

如果对生成结果不满意，可以微调风格标签——例如把”Upbeat”改为”Ballad”，整首歌的节奏就会变慢。

三、语音合成与声音克隆

语音合成（TTS）

语音合成（Text-to-Speech）是将文字转换为语音的技术。日常生活中随处可见它的身影——手机导航的语音播报、智能音箱的回答、短视频里的 AI 旁白，背后都是 TTS 技术。

技术原理：从”机器人腔”到”真人感”

早期的语音合成听起来像”机器人说话”，因为它只是把预录的音素片段拼接在一起。现代 AI 语音合成则完全不同，它的工作流程是：

输入文本 → 文本分析（分词、标注语调）→ 声学模型（生成声音特征）
→ 声码器（将特征转换为音频波形）→ 输出语音

其中，声学模型是核心。它通过学习大量真人语音数据，掌握了语调起伏、停顿节奏、情感表达等规律。这就是为什么现在的 AI 配音听起来越来越像真人——它不是在”拼字”，而是在”说话”。

推荐工具与操作：

表5-2 主流AI配音工具对比

工具	特点	适用场景
讯飞智作	中文音色丰富，支持情感调节	有声读物、课件配音
通义听悟	语音转文字 + 多语种翻译	会议记录、字幕生成
剪映 AI 配音	内置于视频编辑器，操作便捷	短视频旁白

讯飞智作操作要点：

选择音色：根据内容风格选择合适的主播音色（新闻播报、情感故事、儿童读物等）；
输入文本：粘贴需要配音的文案；
细节调整：
- 停顿控制：在句子之间插入停顿（0.3—1 秒），模拟真人呼吸节奏；
- 语速调节：全局调整主播语速，或选中特定句子进行局部变速；
- 多音字校正：手动标注多音字的正确读音。

实操演示：用讯飞智作为一段课程介绍配音

第 1 步：打开讯飞智作（peiyin.xunfei.cn），注册并登录，点击”开始创作”。

第 2 步：在文本编辑区粘贴以下文案：

欢迎来到人工智能应用素养课程。在这门课中，你将学会与 AI 协作，
用提示词驾驭文字、图像、音频和视频。无论你是文科生还是理科生，
这些技能都将成为你未来工作中的核心竞争力。让我们开始吧。

第 3 步：在左侧音色列表中，选择”知性女声”或”沉稳男声”等适合教学场景的音色。点击试听，确认音色符合预期。

第 4 步：微调细节——选中”让我们开始吧”这句话，将语速调慢 10%，并在前面插入 0.5 秒停顿，营造”引导感”。

第 5 步：点击”合成”，试听完整音频。满意后点击”下载”，保存为 MP3 文件。

效果对比： 同一段文案，选择”新闻播报”音色会显得正式严肃，选择”温柔女声”则更亲切轻松。可以根据内容的使用场景选择最合适的音色。

声音克隆

声音克隆技术可以通过少量录音样本（通常 30 秒至 1 分钟），学习特定人的音色、语调和说话习惯，从而合成具有个人特征的语音。

技术原理简述：

录音样本 → 提取声纹特征（音色、语调、节奏）
→ 训练个性化语音模型 → 输入新文本 → 生成该人声音的语音

安全提醒：声音克隆技术在带来便利的同时，也存在被滥用的风险（如电信诈骗中伪造亲友声音）。使用时应遵守法律法规，不得未经授权克隆他人声音。

思辨时刻：当逝者的声音被”复活”

声音克隆的伦理边界远不止防诈骗这么简单。2024 年，已有商业公司推出”数字永生”服务——用逝者生前的录音训练语音模型，让家属可以继续”听到”亲人的声音。这引发了一个深刻的问题：用 AI 克隆一位去世亲人的声音，是一种温暖的慰藉，还是对生命尊严的冒犯？如果逝者生前没有明确同意，后人是否有权”复活”他的声音？这些问题没有标准答案，但值得每一个技术使用者认真思考——技术的边界，往往就是人性的边界。

技术的善意：AI 音频在无障碍领域的应用

AI 语音合成不只是内容创作的效率工具，它正在为特殊群体打开新的窗口。语音合成可以为视障人士实时”朗读”网页、书籍和路标信息；声音克隆技术可以帮助因疾病失去声音的患者重新”开口说话”；AI 配音让小语种的教育资源得以快速翻译和传播。当我们学习这些工具时，不妨多想一步：除了让自己的内容更酷，这项技术还能为谁带来帮助？

拓展任务·美育融合：绘本配乐与校园广播

完成以下任一任务： 1. 绘本配乐：选择一个儿童绘本故事，使用 AI 语音合成工具生成旁白配音，再用 Suno 生成一段匹配故事氛围的背景音乐； 2. 校园广播音频：撰写一段 3 分钟的校园广播稿，使用 AI 配音工具生成播报音频，并添加片头音乐和背景音效。

5.2 AI 视频制作

不会拍摄、不会剪辑、不想出镜——这些曾经的”硬门槛”，正在被 AI 视频工具逐一消除。

一、视频叙事基础：好视频的底层逻辑

在学习 AI 视频工具之前，需要先理解一个关键问题：什么样的视频能吸引人看完？

无论是 30 秒的短视频还是 10 分钟的微课，好视频都遵循一个基本结构——“钩子—内容—行动”三段式：

表5-3 短视频”钩子—内容—行动”三段式结构

阶段	作用	时长占比	技巧
钩子（Hook）	前 3 秒抓住注意力	5%—10%	提问、悬念、反常识
内容（Body）	传递核心信息	80%—85%	分点叙述、节奏变化
行动（CTA）	引导观众下一步	5%—10%	关注、点赞、评论

钩子的常用写法：

提问式：“你知道 AI 一分钟能写多少字吗？”

反常识式：“90% 的人都在错误地使用 AI。”

场景式：“凌晨两点，论文还没写完……”

理解了这个结构，在使用 AI 生成脚本时，就能在提示词中明确要求”开头设置悬念”“结尾加行动号召”，生成的内容会更有吸引力。

“钩子—内容—行动”不只属于短视频。这套叙事逻辑在许多场景中同样有效：一场演讲的开头需要”钩子”来抓住听众；一封求职信的首段需要”钩子”让HR继续读下去；甚至给小朋友讲绘本，也需要用悬念式的开头吸引注意力。掌握这个结构，获得的不只是写脚本的技巧，而是一种通用的叙事思维能力。

二、数字人生成：让 AI 代替真人出镜

数字人（Digital Human）是通过 AI 生成的虚拟人物形象，能够根据输入的文本自动生成口播视频，解决”真人出镜难”的问题。

主流工具对比：

表5-4 主流数字人生成工具对比

工具	特点	适用场景
HeyGen	多语种支持，形象逼真	跨语言营销视频、产品介绍
剪映（CapCut）	免费，数字人形象丰富，与即梦同属字节生态	口播教学、知识科普、企业宣传
闪剪	支持形象克隆，模板丰富	直播带货、知识分享

数字人视频制作流程：

形象选择或克隆：
- 使用平台提供的预设数字人形象；
- 或上传一段 30 秒至 1 分钟的真人视频（正面、光线均匀），训练专属数字人分身。
输入文案：将 DeepSeek 生成的口播文案粘贴到编辑区；
配置模板：选择背景模板（演播室、办公室、节日主题等），调节数字人大小和位置；
生成与导出：系统自动驱动数字人的口型和表情，生成完整的口播视频。

实操演示：用剪映制作一段课程欢迎视频

第 1 步：打开剪映专业版（PC 端或网页版 capcut.cn），注册并登录。在首页选择”数字人视频”功能入口。

第 2 步：在数字人形象库中浏览不同分类（如”职场”“教育”“日常”等），选择一个适合教学场景的形象。剪映提供上百个预设数字人形象，也支持上传个人照片或短视频生成专属数字人分身。

第 3 步：在文案输入区粘贴以下口播文案（可先用 DeepSeek 生成），并从 150 余种 AI 音色中选择合适的朗读声音：

同学们好，欢迎来到人工智能应用素养课程。
在接下来的学习中，我们将一起探索 AI 在写作、绘画、
音视频创作等领域的实际应用。
无论你的专业背景是什么，这些技能都将帮助你
在未来的工作中事半功倍。让我们开始这段旅程吧！

第 4 步：选择背景模板（演播室、办公室等），点击”生成视频”，等待系统渲染。生成完成后预览效果——观察数字人的口型是否与文案同步，表情是否自然。

第 5 步：如果满意，点击”导出”保存为 MP4 文件。如果口型有偏差，可以尝试调整文案中的标点符号（句号会产生较长停顿，逗号停顿较短）。

常见问题：

数字人表情僵硬：尝试在文案中加入感叹号或问号，AI 会据此调整表情；

口型不同步：检查文案中是否有生僻词或英文缩写，替换为常用表达；

背景不合适：部分平台支持上传自定义背景图片。

三、短视频制作：从脚本到成片的 AI 工作流

制作一段短视频，传统流程需要编剧、摄影、剪辑等多个角色协作。借助 AI 工具链，一个人即可完成全流程。

推荐工作流：DeepSeek + 剪映 AI

DeepSeek 生成脚本 → 拆分为分镜表 → 剪映"AI 生成"创建图片与视频素材
→ 组合剪辑 → 添加配音和字幕 → 导出成片

步骤 1：用 DeepSeek 生成分镜脚本

提示词示例：

请为"AI 改变校园生活"主题撰写一段 60 秒短视频的分镜脚本。
要求：
1. 以表格形式呈现，包含：镜号、时长、画面描述、旁白文案；
2. 共 6 个镜头，节奏由慢到快；
3. 开头用悬念吸引观众，结尾有行动号召。

生成结果示例：

表5-5 AI辅助生成的60秒短视频分镜脚本示例

镜号	时长	画面描述	旁白文案
1	8s	清晨校园全景，阳光洒在教学楼上	“你有没有想过，五年后的校园会是什么样？”
2	10s	学生对着电脑与 AI 对话的特写	“AI 正在悄悄改变我们学习的方式……”
3	10s	课堂上老师使用智能白板教学	“智能备课，让每一堂课都量身定制”
4	10s	学生用手机拍照识别植物	“走出教室，AI 就是你的随身百科”
5	12s	多个 AI 应用场景快速切换	“写作、绘画、编程、数据分析……”
6	10s	学生微笑面对镜头	“未来已来，你准备好了吗？”

步骤 2：用剪映”AI 生成”创建素材

新版剪映已将原”图文成片”功能升级为 “AI 生成”，包含两个子功能：图片生成和视频生成，可以直接根据分镜脚本中的画面描述来创建所需素材。

子功能 1：图片生成

打开剪映专业版，进入”AI 生成”功能入口，选择”图片生成”；
在文本描述框中输入分镜脚本中的画面描述（如”清晨校园全景，阳光洒在教学楼上”）；
如果希望生成的图片与某张参考图风格一致，可以点击”导入参考图”上传素材；
点击生成，从多张候选结果中选择最满意的一张。

子功能 2：视频生成

在”AI 生成”中选择”视频生成”；
支持两种模式：
- 文本生视频：直接输入画面描述文字，AI 自动生成对应的视频片段；
- 图片生视频：上传一张静态图片（可以是上一步 AI 生成的图片），AI 为其添加运动效果，生成动态视频。
根据分镜表逐个镜头生成素材，将生成的图片和视频片段依次拖入时间线。

步骤 3：后期调整

替换素材：对 AI 生成效果不满意的片段，可重新输入描述词生成替换；

参数微调：在右侧参数栏调整画面的缩放、不透明度，或字幕的字体和位置；

添加配音与字幕：将旁白文案整合为连贯文字，选择朗读音色（如”新闻女声”“活力男声”），系统自动对齐字幕与音频；

添加转场：在镜头之间添加合适的转场效果；

导出：检查无误后导出为 MP4 格式。

四、AI 视频生成大模型：从文字到电影级画面

数字人和短视频剪辑工具解决的是”有素材、怎么组装”的问题。而 AI 视频生成大模型要解决的是一个更根本的问题——没有素材，凭一段文字描述直接生成视频。

2024—2026 年间，视频生成大模型经历了爆发式发展：OpenAI 的 Sora、Runway Gen-3、Pika 等产品相继亮相。2026 年 2 月，字节跳动发布的 Seedance 2.0 将这一领域推向了新的高度——它不仅能生成画面，还能同步生成与画面严丝合缝的立体声音效，真正实现了”音画一体”的 AI 创作。

Seedance 2.0 的核心能力

表5-6 Seedance 2.0核心能力介绍

能力维度	说明
多模态输入	同时接受文字、图片（最多 9 张）、视频（最多 3 段）、音频（最多 3 段）作为输入
物理规律还原	精准呈现衣物重力感、光影折射、流苏甩动等物理细节
音画同步	集成双声道立体声，背景音乐、环境音效与画面动作精确对齐
导演级可控性	支持对表演、光影、运镜的精细调度，可按分镜脚本逐镜头生成
视频延长	支持”接着拍”功能，在已有视频基础上按提示词续拍新镜头

技术真相：Seedance 能”还原”重力和折射，并不意味着它理解牛顿定律或光学原理。它只是看过了数亿段视频后，总结出”东西掉下来应该是什么样”的概率分布。AI 模拟的是数据中的统计规律，而非物理定律本身——这是”数据驱动的现实感”，不是”理解现实”。认清这一点，有助于祛除对 AI”无所不能”的盲目崇拜。

体验地址：在豆包（doubao.com）中即可使用 Seedance 视频生成功能。技术主页：https://seed.bytedance.com/zh/seedance2_0

提示词赏析：看看专业级 Prompt 长什么样

与文字对话中简短的提示词不同，视频生成的提示词往往需要像电影分镜脚本一样详细——描述镜头运动、人物动作、光影氛围、甚至声音设计。以下是 Seedance 2.0 官方展示的几个代表性提示词。

示例 1：竞技级双人花样滑冰（文生视频）

竞技级双人花样滑冰现场。开场低机位跟随冰刀滑行，冰屑与反光细节清晰。进入旋转段，男选手轴线微偏出现失误，旋转节奏短暂塌陷。女选手迅速调整重心，眼神冷静并示意”Stay with me”，主动引导男选手重新对齐节奏。随后无缝衔接托举动作，线条干净稳定。高潮为同步跳跃组合，空中姿态笔直，落冰果断，音画完美对齐。女选手身着深蓝花滑裙，男选手为竞技运动装。整体呈现从紧张失误到冷静完成比赛的完整叙事，体现顶级双人花样滑冰中的技术能力与心理强度。

这段提示词的写作技巧值得学习：它不仅描述了”画面是什么”，还构建了一个从失误到恢复的叙事弧线，并指定了镜头角度（低机位跟随）、细节特写（冰屑与反光）和情绪变化。

示例 2：穿越世界名画（多模态参考生成）

女孩打破次元壁，连续穿越多幅名画世界，保留真实质感，油画世界呈现 3D 高饱和度动画风格。她站在《星空》的旋转星空下神情激动；接着好奇看着情侣拥抱的画面；随后与《戴珍珠耳环的少女》一起自拍；紧接着在两名武士中间穿过；跑到《蒙娜丽莎》身旁，被摸头贴脸……对比度高，电影质感，转场丝滑无缝，人物鲜活。

这个案例展示了 Seedance 2.0 的”全能参考”能力——用户同时上传多张名画图片作为参考素材，模型理解每幅画的内容并让真人角色与之互动。

示例 3：武侠风格视听大片（文生视频 + 音效同步）

武侠风格视听大片，竹林里白衣剑客与蓑衣刀客对峙。镜头在两人之间缓慢推移，焦点在雨滴和剑柄之间切换，气氛压抑到极点，只能听见雨声。突然一道惊雷闪过，两人同时冲锋，侧拍镜头极速平移，捕捉泥浆飞溅的脚步。双兵相接瞬间画面切换为极慢动作，清晰展示刀剑震飞雨水形成的圆环激波，以及被剑气切断的竹叶。随后恢复常速两人背对背落地，蓑衣刀客的斗笠裂开，画面戛然而止。

注意这段提示词如何精确控制镜头语言（缓慢推移→极速平移→极慢动作→恢复常速）和声音设计（雨声→惊雷→刀剑撞击），这正是 Seedance 2.0 音画同步能力的最佳体现。

提示词的”导演视角”：一段提示词的结构拆解

以武侠大片的提示词为例，拆解其中不同层次的信息：

┌─────────────────────────────────────────────────┐
│  【场景设定】 竹林里白衣剑客与蓑衣刀客对峙        │
├─────────────────────────────────────────────────┤
│  【运镜指令】 缓慢推移 → 极速平移 → 极慢动作      │
│              → 恢复常速 → 画面戛然而止             │
├─────────────────────────────────────────────────┤
│  【材质细节】 冰屑反光 / 泥浆飞溅 / 斗笠裂开      │
├─────────────────────────────────────────────────┤
│  【声音设计】 雨声 → 惊雷 → 刀剑撞击 → 静默       │
├─────────────────────────────────────────────────┤
│  【情绪节奏】 压抑 → 爆发 → 慢镜凝视 → 戛然而止   │
└─────────────────────────────────────────────────┘

写视频提示词时，可以有意识地从这五个层次逐一填充，像导演写分镜一样构建画面。

从这些提示词中学到什么？

对比第三章学过的文字对话提示词，视频生成提示词有几个显著特点：

镜头意识：需要指定机位（低机位、侧拍）、运镜方式（跟随、推移、环绕）和景别变化；
时间线叙事：按时间顺序描述动作序列，而非静态场景；
多感官描写：不仅写画面，还写声音、光影、材质触感；
情绪节奏：通过动作快慢、镜头切换控制观众的情绪起伏。

这些技巧不仅适用于 Seedance，也适用于 Sora、Runway 等其他视频生成工具。掌握”像导演一样写提示词”的能力，将成为 AI 时代内容创作者的核心竞争力。

主线任务：制作一段 60 秒的课程介绍短视频

选择正在学习的一门课程，完成以下任务： 1. 使用 DeepSeek 生成分镜脚本（6—8 个镜头）； 2. 使用剪映”AI 生成”功能（图片生成 + 视频生成）创建各镜头素材，组合为初版视频； 3. 进行至少 3 处手动调整（替换素材、修改字幕、添加转场等）； 4. 导出最终成片。

拓展任务：微课片头制作

使用数字人工具制作一段 15 秒的微课片头，包含课程名称、教师介绍和欢迎语。

阅读材料：数字人直播——茶商用 AI 分身 7×24 小时直播的案例

2024 年，一位福建茶商尝试使用 AI 数字人进行直播带货。他录制了一段 1 分钟的真人视频用于训练数字人形象，然后将产品介绍话术输入系统，数字人便能 7×24 小时不间断直播。据报道，该数字人直播间的月均销售额达到了真人直播间的 60%—70%，而人力成本几乎为零。

这一案例展示了数字人技术在商业领域的巨大潜力，但也引发了思考：当消费者发现与自己互动的”主播”其实是 AI 时，他们会作何感想？商家是否有义务告知消费者正在与数字人交流？

5.3 全流程自动化综合实战

当文字、图像、音频、视频的 AI 工具串联起来，一个人就能完成过去需要整个团队才能交付的工作。

一、综合案例：从访谈录音到演讲稿的全闭环

假设参加了一场行业访谈，需要将录音整理为一份完整的汇报材料。传统流程需要多人协作，而借助 AI 工具链，一个人即可完成全部环节。

全流程工具链：

表5-7 从访谈录音到演讲稿的AI工具链

步骤	任务	工具	输出
1	录音转文字	通义听悟	带说话人标注的文字稿
2	提炼要点	DeepSeek	结构化的要点摘要
3	生成 PPT 大纲	DeepSeek	分页大纲与备注
4	制作 PPT	AiPPT	完整演示文稿
5	撰写演讲稿	DeepSeek	配合 PPT 的口播文案
6	生成配音	讯飞智作 / 剪映	演讲音频

操作示范：

下面以”采访一位创业校友”为场景，演示每个步骤的具体操作。

步骤 1：录音转文字

打开通义听悟（tingwu.aliyun.com），点击”上传音视频”，选择采访录音文件（支持 MP3、WAV、MP4 等格式）。

上传完成后，系统会自动进行语音识别。等待处理完毕，会看到带有说话人标注的完整文字稿。点击”导出”，选择”文本格式”，复制全部内容。

步骤 2：用 DeepSeek 提炼要点

将文字稿粘贴到 DeepSeek，输入以下提示词：

以下是一段创业校友访谈的文字记录。请完成：
1. 提炼 5 个核心观点，每个观点用一句话概括；
2. 整理 3 条可引用的精彩原话（保留原文）；
3. 归纳访谈中提到的关键数据（如融资金额、用户数等）；
4. 用 3 句话总结这次访谈的核心主题。

[粘贴文字稿]

DeepSeek 输出示例：

核心观点： 1. AI 工具让小团队也能做出大公司级别的产品； 2. 创业初期最重要的不是技术，而是找到真实的用户需求； 3. 大学期间的项目经历是最好的创业预演； 4. 融资不是目的，可持续的商业模式才是关键； 5. 失败的经验比成功的经验更有价值。

精彩原话： 1. “我们第一个产品失败了，但那次失败教会我的东西，比 MBA 课程还多。” 2. “不要等准备好了再开始，边做边学才是最快的成长方式。” 3. “AI 不会取代创业者，但会用 AI 的创业者会取代不会用的。”

步骤 3：生成 PPT 大纲

将提炼的要点发给 DeepSeek：

请根据以下访谈要点，生成一份 8 页的 PPT 大纲。
每页包含：页面标题、3 个要点、备注栏（演讲提示）。
第 1 页为封面，最后一页为总结与致谢。

[粘贴上一步的输出]

步骤 4：制作 PPT

将生成的大纲导入 AiPPT 一键生成演示文稿（详见 3.4 节的操作流程）。

步骤 5：撰写演讲稿

请根据以下 PPT 大纲，为每页撰写 30 秒的演讲稿。
要求：口语化表达，每页之间有自然过渡，
总时长控制在 5 分钟以内。
开头用一个故事引入，结尾呼应开头。

[粘贴 PPT 大纲]

步骤 6：生成配音

打开讯飞智作，将演讲稿粘贴到编辑区，选择”沉稳男声”或”知性女声”音色，调整语速为正常偏慢（适合演讲场景），合成并导出 MP3 文件。

二、跨平台内容转换

同一份素材，在不同平台需要不同的呈现形式。AI 可以帮助快速完成格式转换。

案例：抖音热点视频 → 小红书图文笔记

我有一段关于"大学生 AI 学习方法"的抖音短视频，
以下是视频的逐字稿。请将其转换为一篇小红书图文笔记：
1. 标题使用"数字型"公式（参考 3.3 节）；
2. 正文 300 字以内，分 4 个要点，每个要点配 emoji；
3. 结尾设置互动问题；
4. 附 5 个话题标签。

[粘贴视频逐字稿]

常见的跨平台转换路径：

表5-8 内容跨平台转换路径

原始内容	目标平台	转换要点
长视频	短视频平台	提取高光片段，添加字幕和节奏感
短视频	图文平台	提炼文字要点，配图排版
文章	播客/音频	改写为口语化表达，生成配音
PPT	短视频	逐页录屏或转为分镜脚本

思辨时刻：当无法分辨真假视频——Deepfake 的识别与伦理

Deepfake（深度伪造）技术利用生成对抗网络（GAN），可以将一个人的面部特征”贴”到另一个人的视频中，生成高度逼真的换脸视频。

如何识别 Deepfake 内容？

观察以下细节破绽： 1. 眨眼频率：伪造视频中人物的眨眼频率往往异常（过快、过慢或不眨眼）； 2. 光影一致性：人脸的光影方向是否与背景环境光一致，边缘是否模糊； 3. 口型同步：口型是否与声音完美同步，牙齿细节是否自然； 4. 微表情与轮廓：表情是否僵硬，下巴、发际线等边缘是否有伪影。

现实案例：

2024 年，香港某跨国公司的财务人员收到”公司高管”的视频会议邀请。会议中，多位”高管”通过视频通话下达了转账指令。财务人员按指示操作，最终被骗走约 2 亿港元。事后调查发现，会议中的所有”高管”都是 AI 生成的 Deepfake 形象。

思考以下问题： 1. 在 AI 生成内容越来越逼真的今天，“眼见为实”这一常识是否还成立？ 2. 平台是否有责任对 AI 生成的音视频内容进行标注？如何在技术上实现？ 3. 如果有人用他人的照片和声音生成了虚假视频，应该如何维权？

本章小结

本章从 AI 音频创作入手，延伸至视频制作，最终通过全流程综合实战，展示了”一人即团队”的 AI 协同创作模式。技术门槛的降低使人人都能成为内容创作者，而叙事能力——用画面讲故事的能力——成为真正的核心竞争力。

小节	核心内容	关键概念
5.1 AI 音频创作	使用 Suno 生成原创音乐，掌握语音合成（TTS）技术制作配音或声音克隆	Suno、语音合成（TTS）、声音克隆
5.2 AI 视频制作	制作数字人口播视频，学习视频叙事的”钩子—内容—行动”三段式结构	数字人、视频叙事、剪映 AI
5.3 全流程自动化综合实战	构建”文案 → 语音 → 画面 → 剪辑”的全自动视频生产工作流	全流程工具链、自动化协作

工具帮助生成画面、配上音乐、合成语音，但叙事节奏的把控仍然是人的功夫。第二篇至此完结，下一篇将进入数据洞察与智能体搭建的进阶领域。

第五章实践与练习

视频是时间的艺术。AI 帮你节省了制作的时间，是为了让你花更多时间去打磨故事。

一、选择题

Suno 生成音乐时，以下哪种方式能更精确地控制生成结果？
- A. 在简单模式下输入一句话描述
- B. 在自定义模式下分别输入歌词和风格标签
- C. 同时上传一段参考音频
- D. 使用更长的文字描述
现代 AI 语音合成（TTS）听起来越来越像真人，核心原因是：
- A. 使用了更高采样率的音频格式
- B. 声学模型通过学习大量真人语音掌握了语调和节奏规律
- C. 直接拼接了真人录音片段
- D. 使用了更好的麦克风录制
短视频的”钩子—内容—行动”三段式结构中，“钩子”的作用是：
- A. 总结视频的核心观点
- B. 在前几秒抓住观众注意力
- C. 引导观众点赞关注
- D. 介绍视频的背景信息
以下哪项是识别 Deepfake 视频的有效方法？
- A. 检查视频的文件大小
- B. 观察人物的眨眼频率和光影一致性
- C. 查看视频的上传时间
- D. 检查视频的分辨率

二、简答题

请用自己的话解释 AI 语音合成（TTS）的工作流程，并说明它与早期”机器人腔”语音合成的本质区别。
在制作短视频时，为什么”钩子”（Hook）如此重要？请列举三种常用的钩子写法，并各举一个例子。

三、实操题

AI 音乐创作：使用 Suno，为所在学校的某个社团或活动创作一首主题曲。要求：使用自定义模式，自行撰写至少一段歌词（Verse）和一段副歌（Chorus），选择合适的风格标签，生成后记录使用的完整提示词。
短视频制作：选择一个感兴趣的主题（如”大学生必备的 3 个 AI 工具”），使用 DeepSeek 生成分镜脚本，再用剪映”AI 生成”功能创建素材并剪辑成片。要求：至少 6 个镜头，开头有钩子，结尾有行动号召。
Deepfake 辨别练习：在网络上搜索 3 个 AI 生成的人物视频（如数字人播报、AI 换脸视频），尝试用本章介绍的 4 个识别维度（眨眼频率、光影一致性、口型同步、微表情轮廓）逐一分析，记录观察结果。
人文创作（选做）：用 AI 为家乡或学校制作一段 1 分钟的”治愈系情书”短视频。要求：用 Suno 生成一段温暖的背景音乐，用 TTS 录制一段深情的旁白，用剪映组合画面。重点不在技术炫技，而在于用镜头、音乐和文字表达对一个地方的真实情感。

参考答案（选择题）：1-B 2-B 3-B 4-B

四、进阶挑战：虚拟数字人主播

背景：学校广播台想开设一个”午间 AI 播报”栏目。

任务：

形象：用即梦 AI 生成一个”极具亲和力”的虚拟主播形象（2D 二次元或 3D 写实均可）。
声音：用 TTS 工具为他/她匹配一个好听的声音。
播报：用 DeepSeek 生成一段 200 字的”校园新闻快讯”（包含天气、食堂菜谱、社团活动）。
合成：让数字人播报这段新闻（使用 D-ID 或 HeyGen 试用版）。

思考：相比真人主播，虚拟主播的优势是什么？（24小时在线、不念错字、多语言）。劣势是什么？（缺乏真实的情感连接）。

五、延伸阅读

伦理：了解”AI 换脸诈骗”的真实案例，提高防范意识
教程：剪映官方教程 —— 包含剪辑的所有基础逻辑（景别、蒙太奇、转场）