第五章 声画驾驭——AI 音频与视频创作

本章摘要: 曾经,制作一段高质量的视频需要一支团队:编剧、摄像、灯光、剪辑、配音、配乐。现在,有了 AI,一个人就是一个剧组。本章将教会读者如何用 AI 生成音乐、克隆声音、制作数字人视频,并把这些技能串联起来,实现全流程的自动化内容创作。

知识图谱

第5章知识图谱

导言:人人都是总导演

文字和图像之外,音频与视频是信息传播最具感染力的形式。一段配乐恰当的短视频、一个数字人播报的课程介绍——这些过去需要专业团队才能完成的工作,如今借助 AI 工具链,一个人就能完成从脚本到成片的全流程。

在短视频时代,“视频力”已经成为和写作力同等重要的表达能力。以前,你的创意可能卡在”我不会画分镜”、“我声音不好听”、“我剪辑软件太难学”上。现在,AI 帮你把这些门槛统统推平——不想出镜?用数字人;不会配乐?用 Suno 生成;不会剪辑?用剪映一键成片。你唯一需要做的,就是像总导演一样,告诉 AI 你要讲什么故事、要什么氛围、要传达什么情感。

但技术门槛的降低也带来一个新问题:当人人都能做视频时,什么才是真正的竞争力?答案是叙事能力——用画面讲故事的能力。工具可以帮你生成画面、配上音乐、合成语音,但”先讲什么、后讲什么、在哪里制造悬念、在哪里释放情绪”,这些叙事节奏的把控仍然是人的功夫。短视频时代的注意力只有前 3 秒,能不能抓住观众,靠的不是特效,而是对人心的理解。

本章将从 AI 音频创作入手,介绍音乐生成和语音合成的基本操作;然后进入 AI 视频制作,学习数字人生成和短视频制作的工作流;最后通过一个全流程综合实战,体验”一人即团队”的 AI 协同创作模式。

学习目标

完成本章学习后,读者将能够:

  1. 操作 Suno 生成原创背景音乐,并能通过元标签控制歌曲结构;
  2. 应用 语音合成(TTS)技术,制作情感丰富的配音或克隆自己的声音;
  3. 制作 数字人口播视频,实现”不露脸也能出镜”;
  4. 构建 “文案 → 语音 → 画面 → 剪辑”的全自动视频生产工作流;
  5. 辨识 Deepfake(深度伪造)技术的风险,树立正确的音视频伦理观。

5.1 AI 音频创作

一段合适的背景音乐、一个逼真的 AI 配音——音频是内容创作中常被忽视却至关重要的环节。

一、为什么音频很重要

可能觉得,做内容主要靠文字和画面,音频只是”锦上添花”。但实际上,音频对信息传达的影响远超想象。

心理学研究表明,人类对声音的情绪反应比视觉更快。一段视频如果去掉背景音乐,感染力会下降 40% 以上。想想刷短视频的体验——很多时候,是背景音乐先”抓住”了注意力,然后才开始看画面内容。

微实验:同一画面,不同配乐

不妨做一个简单的思想实验:想象一段 30 秒的校园航拍画面——操场、教学楼、林荫道。如果配上《步步高》,画面立刻变成充满活力的招生宣传片;换成大提琴独奏的《天鹅》,同样的画面瞬间变成毕业季的伤感回忆。画面没有变,变的只是声音——但观众感受到的”故事”完全不同。这说明,声音不只是画面的附属品,它本身就在”讲故事”。理解这一点,才能真正用好 AI 音频工具:生成的不仅是声音,更是情绪。

AI 音频工具的出现,让普通人也能快速制作专业级的音频内容。不需要会乐器、不需要录音棚、不需要专业配音员——只需要描述想要的效果,AI 就能帮助生成。

二、AI 音乐生成:Suno 的使用方法

Suno 是目前最受欢迎的 AI 音乐生成工具之一,用户只需输入文字描述,即可生成包含人声演唱的完整歌曲。2026 年初,Suno 推出了 Studio 1.2 版本,新增多轨编辑、变拍号支持(6/8、7/8 等)和 MIDI 导出功能,已从”玩具”进化为可用于专业音乐制作的生成式音频工作站,全球用户近 1 亿。

基本操作流程:

  1. 访问 Suno 官网(suno.com),注册并登录;
  2. 点击”Create”进入创作界面;
  3. 选择创作模式:
    • 简单模式:直接输入一段文字描述(如”一首轻快的校园民谣,关于毕业季的回忆”),AI 自动生成歌词和旋律;
    • 自定义模式:分别输入歌词(Lyrics)和风格标签(Style of Music),对生成结果进行更精细的控制。
  4. 点击生成,等待约 30 秒即可获得两个版本的完整歌曲。

风格控制关键词:

表5-1 Suno音乐风格控制关键词

风格类型 关键词示例
流行 Pop, Synth-pop, Indie pop
民谣 Folk, Acoustic, Singer-songwriter
电子 Electronic, Lo-fi, Chillwave, EDM
古典 Classical, Orchestral, Piano solo
中国风 Chinese style, Guzheng, Erhu, Pentatonic
氛围 Ambient, Cinematic, Meditation

提示词示例:

Style: Acoustic folk, warm, nostalgic
Lyrics:
[Verse]
九月的风吹过操场
书包里装满了阳光
[Chorus]
那些年我们一起走过的路
每一步都算数

实操演示:用 Suno 为校园活动生成一首主题曲

第 1 步:打开 Suno(suno.com),登录后点击”Create”,切换到自定义模式(Custom)。

图5-1 Suno 自定义创作界面

第 2 步:在”Style of Music”栏输入风格标签:

Chinese style, Pop, Upbeat, Youth, Energetic

第 3 步:在”Lyrics”栏输入歌词:

[Verse 1]
教室里的灯还亮着
键盘敲出新的可能
AI 不只是一串代码
它是我们探索世界的眼睛

[Chorus]
用智慧点亮未来
每一次提问都是起跑线
用 AI 打开新世界
我们的故事才刚刚开始

[Verse 2]
操场上的风带着期待
屏幕里的世界无限宽广
从文字到画面到声音
每一步都有 AI 在身旁

[Chorus]
用智慧点亮未来
每一次提问都是起跑线
用 AI 打开新世界
我们的故事才刚刚开始

第 4 步:点击”Create”,等待生成。Suno 会输出两个版本,可以试听后选择更满意的一个。

第 5 步:点击歌曲右侧的下载按钮,保存为 MP3 文件。

歌词写作技巧:

使用 [Verse][Chorus][Bridge] 等标签标注歌曲结构,AI 会据此安排旋律变化;

每行歌词控制在 10—15 个字,过长会导致演唱节奏不自然;

如果对生成结果不满意,可以微调风格标签——例如把”Upbeat”改为”Ballad”,整首歌的节奏就会变慢。

三、语音合成与声音克隆

语音合成(TTS)

语音合成(Text-to-Speech)是将文字转换为语音的技术。日常生活中随处可见它的身影——手机导航的语音播报、智能音箱的回答、短视频里的 AI 旁白,背后都是 TTS 技术。

技术原理:从”机器人腔”到”真人感”

早期的语音合成听起来像”机器人说话”,因为它只是把预录的音素片段拼接在一起。现代 AI 语音合成则完全不同,它的工作流程是:

输入文本 → 文本分析(分词、标注语调)→ 声学模型(生成声音特征)
→ 声码器(将特征转换为音频波形)→ 输出语音

其中,声学模型是核心。它通过学习大量真人语音数据,掌握了语调起伏、停顿节奏、情感表达等规律。这就是为什么现在的 AI 配音听起来越来越像真人——它不是在”拼字”,而是在”说话”。

推荐工具与操作:

表5-2 主流AI配音工具对比

工具 特点 适用场景
讯飞智作 中文音色丰富,支持情感调节 有声读物、课件配音
通义听悟 语音转文字 + 多语种翻译 会议记录、字幕生成
剪映 AI 配音 内置于视频编辑器,操作便捷 短视频旁白

讯飞智作操作要点:

  1. 选择音色:根据内容风格选择合适的主播音色(新闻播报、情感故事、儿童读物等);
  2. 输入文本:粘贴需要配音的文案;
  3. 细节调整:
    • 停顿控制:在句子之间插入停顿(0.3—1 秒),模拟真人呼吸节奏;
    • 语速调节:全局调整主播语速,或选中特定句子进行局部变速;
    • 多音字校正:手动标注多音字的正确读音。

实操演示:用讯飞智作为一段课程介绍配音

第 1 步:打开讯飞智作(peiyin.xunfei.cn),注册并登录,点击”开始创作”。

图5-2 讯飞智作语音合成界面

第 2 步:在文本编辑区粘贴以下文案:

欢迎来到人工智能应用素养课程。在这门课中,你将学会与 AI 协作,
用提示词驾驭文字、图像、音频和视频。无论你是文科生还是理科生,
这些技能都将成为你未来工作中的核心竞争力。让我们开始吧。

第 3 步:在左侧音色列表中,选择”知性女声”或”沉稳男声”等适合教学场景的音色。点击试听,确认音色符合预期。

第 4 步:微调细节——选中”让我们开始吧”这句话,将语速调慢 10%,并在前面插入 0.5 秒停顿,营造”引导感”。

第 5 步:点击”合成”,试听完整音频。满意后点击”下载”,保存为 MP3 文件。

效果对比: 同一段文案,选择”新闻播报”音色会显得正式严肃,选择”温柔女声”则更亲切轻松。可以根据内容的使用场景选择最合适的音色。

声音克隆

声音克隆技术可以通过少量录音样本(通常 30 秒至 1 分钟),学习特定人的音色、语调和说话习惯,从而合成具有个人特征的语音。

技术原理简述:

录音样本 → 提取声纹特征(音色、语调、节奏)
→ 训练个性化语音模型 → 输入新文本 → 生成该人声音的语音

安全提醒:声音克隆技术在带来便利的同时,也存在被滥用的风险(如电信诈骗中伪造亲友声音)。使用时应遵守法律法规,不得未经授权克隆他人声音。

思辨时刻:当逝者的声音被”复活”

声音克隆的伦理边界远不止防诈骗这么简单。2024 年,已有商业公司推出”数字永生”服务——用逝者生前的录音训练语音模型,让家属可以继续”听到”亲人的声音。这引发了一个深刻的问题:用 AI 克隆一位去世亲人的声音,是一种温暖的慰藉,还是对生命尊严的冒犯?如果逝者生前没有明确同意,后人是否有权”复活”他的声音?这些问题没有标准答案,但值得每一个技术使用者认真思考——技术的边界,往往就是人性的边界。

技术的善意:AI 音频在无障碍领域的应用

AI 语音合成不只是内容创作的效率工具,它正在为特殊群体打开新的窗口。语音合成可以为视障人士实时”朗读”网页、书籍和路标信息;声音克隆技术可以帮助因疾病失去声音的患者重新”开口说话”;AI 配音让小语种的教育资源得以快速翻译和传播。当我们学习这些工具时,不妨多想一步:除了让自己的内容更酷,这项技术还能为谁带来帮助?

拓展任务·美育融合:绘本配乐与校园广播

完成以下任一任务: 1. 绘本配乐:选择一个儿童绘本故事,使用 AI 语音合成工具生成旁白配音,再用 Suno 生成一段匹配故事氛围的背景音乐; 2. 校园广播音频:撰写一段 3 分钟的校园广播稿,使用 AI 配音工具生成播报音频,并添加片头音乐和背景音效。

5.2 AI 视频制作

不会拍摄、不会剪辑、不想出镜——这些曾经的”硬门槛”,正在被 AI 视频工具逐一消除。

一、视频叙事基础:好视频的底层逻辑

在学习 AI 视频工具之前,需要先理解一个关键问题:什么样的视频能吸引人看完?

无论是 30 秒的短视频还是 10 分钟的微课,好视频都遵循一个基本结构——“钩子—内容—行动”三段式

表5-3 短视频”钩子—内容—行动”三段式结构

阶段 作用 时长占比 技巧
钩子(Hook) 前 3 秒抓住注意力 5%—10% 提问、悬念、反常识
内容(Body) 传递核心信息 80%—85% 分点叙述、节奏变化
行动(CTA) 引导观众下一步 5%—10% 关注、点赞、评论

钩子的常用写法:

提问式:“你知道 AI 一分钟能写多少字吗?”

反常识式:“90% 的人都在错误地使用 AI。”

场景式:“凌晨两点,论文还没写完……”

理解了这个结构,在使用 AI 生成脚本时,就能在提示词中明确要求”开头设置悬念”“结尾加行动号召”,生成的内容会更有吸引力。

“钩子—内容—行动”不只属于短视频。这套叙事逻辑在许多场景中同样有效:一场演讲的开头需要”钩子”来抓住听众;一封求职信的首段需要”钩子”让HR继续读下去;甚至给小朋友讲绘本,也需要用悬念式的开头吸引注意力。掌握这个结构,获得的不只是写脚本的技巧,而是一种通用的叙事思维能力。

二、数字人生成:让 AI 代替真人出镜

数字人(Digital Human)是通过 AI 生成的虚拟人物形象,能够根据输入的文本自动生成口播视频,解决”真人出镜难”的问题。

主流工具对比:

表5-4 主流数字人生成工具对比

工具 特点 适用场景
HeyGen 多语种支持,形象逼真 跨语言营销视频、产品介绍
剪映(CapCut) 免费,数字人形象丰富,与即梦同属字节生态 口播教学、知识科普、企业宣传
闪剪 支持形象克隆,模板丰富 直播带货、知识分享

数字人视频制作流程:

  1. 形象选择或克隆
    • 使用平台提供的预设数字人形象;
    • 或上传一段 30 秒至 1 分钟的真人视频(正面、光线均匀),训练专属数字人分身。
  2. 输入文案:将 DeepSeek 生成的口播文案粘贴到编辑区;
  3. 配置模板:选择背景模板(演播室、办公室、节日主题等),调节数字人大小和位置;
  4. 生成与导出:系统自动驱动数字人的口型和表情,生成完整的口播视频。

实操演示:用剪映制作一段课程欢迎视频

第 1 步:打开剪映专业版(PC 端或网页版 capcut.cn),注册并登录。在首页选择”数字人视频”功能入口。

图5-3 剪映数字人创建界面

第 2 步:在数字人形象库中浏览不同分类(如”职场”“教育”“日常”等),选择一个适合教学场景的形象。剪映提供上百个预设数字人形象,也支持上传个人照片或短视频生成专属数字人分身。

第 3 步:在文案输入区粘贴以下口播文案(可先用 DeepSeek 生成),并从 150 余种 AI 音色中选择合适的朗读声音:

同学们好,欢迎来到人工智能应用素养课程。
在接下来的学习中,我们将一起探索 AI 在写作、绘画、
音视频创作等领域的实际应用。
无论你的专业背景是什么,这些技能都将帮助你
在未来的工作中事半功倍。让我们开始这段旅程吧!

第 4 步:选择背景模板(演播室、办公室等),点击”生成视频”,等待系统渲染。生成完成后预览效果——观察数字人的口型是否与文案同步,表情是否自然。

第 5 步:如果满意,点击”导出”保存为 MP4 文件。如果口型有偏差,可以尝试调整文案中的标点符号(句号会产生较长停顿,逗号停顿较短)。

常见问题:

数字人表情僵硬:尝试在文案中加入感叹号或问号,AI 会据此调整表情;

口型不同步:检查文案中是否有生僻词或英文缩写,替换为常用表达;

背景不合适:部分平台支持上传自定义背景图片。

三、短视频制作:从脚本到成片的 AI 工作流

制作一段短视频,传统流程需要编剧、摄影、剪辑等多个角色协作。借助 AI 工具链,一个人即可完成全流程。

推荐工作流:DeepSeek + 剪映 AI

DeepSeek 生成脚本 → 拆分为分镜表 → 剪映"AI 生成"创建图片与视频素材
→ 组合剪辑 → 添加配音和字幕 → 导出成片

步骤 1:用 DeepSeek 生成分镜脚本

提示词示例:

请为"AI 改变校园生活"主题撰写一段 60 秒短视频的分镜脚本。
要求:
1. 以表格形式呈现,包含:镜号、时长、画面描述、旁白文案;
2. 共 6 个镜头,节奏由慢到快;
3. 开头用悬念吸引观众,结尾有行动号召。

生成结果示例:

表5-5 AI辅助生成的60秒短视频分镜脚本示例

镜号 时长 画面描述 旁白文案
1 8s 清晨校园全景,阳光洒在教学楼上 “你有没有想过,五年后的校园会是什么样?”
2 10s 学生对着电脑与 AI 对话的特写 “AI 正在悄悄改变我们学习的方式……”
3 10s 课堂上老师使用智能白板教学 “智能备课,让每一堂课都量身定制”
4 10s 学生用手机拍照识别植物 “走出教室,AI 就是你的随身百科”
5 12s 多个 AI 应用场景快速切换 “写作、绘画、编程、数据分析……”
6 10s 学生微笑面对镜头 “未来已来,你准备好了吗?”

步骤 2:用剪映”AI 生成”创建素材

新版剪映已将原”图文成片”功能升级为 “AI 生成”,包含两个子功能:图片生成视频生成,可以直接根据分镜脚本中的画面描述来创建所需素材。

子功能 1:图片生成

图5-4 剪映 AI 生成——图片生成界面
  1. 打开剪映专业版,进入”AI 生成”功能入口,选择”图片生成”;
  2. 在文本描述框中输入分镜脚本中的画面描述(如”清晨校园全景,阳光洒在教学楼上”);
  3. 如果希望生成的图片与某张参考图风格一致,可以点击”导入参考图”上传素材;
  4. 点击生成,从多张候选结果中选择最满意的一张。

子功能 2:视频生成

图5-5 剪映 AI 生成——视频生成界面
  1. 在”AI 生成”中选择”视频生成”;
  2. 支持两种模式:
    • 文本生视频:直接输入画面描述文字,AI 自动生成对应的视频片段;
    • 图片生视频:上传一张静态图片(可以是上一步 AI 生成的图片),AI 为其添加运动效果,生成动态视频。
  3. 根据分镜表逐个镜头生成素材,将生成的图片和视频片段依次拖入时间线。

步骤 3:后期调整

替换素材:对 AI 生成效果不满意的片段,可重新输入描述词生成替换;

参数微调:在右侧参数栏调整画面的缩放、不透明度,或字幕的字体和位置;

添加配音与字幕:将旁白文案整合为连贯文字,选择朗读音色(如”新闻女声”“活力男声”),系统自动对齐字幕与音频;

添加转场:在镜头之间添加合适的转场效果;

导出:检查无误后导出为 MP4 格式。

四、AI 视频生成大模型:从文字到电影级画面

数字人和短视频剪辑工具解决的是”有素材、怎么组装”的问题。而 AI 视频生成大模型要解决的是一个更根本的问题——没有素材,凭一段文字描述直接生成视频

2024—2026 年间,视频生成大模型经历了爆发式发展:OpenAI 的 Sora、Runway Gen-3、Pika 等产品相继亮相。2026 年 2 月,字节跳动发布的 Seedance 2.0 将这一领域推向了新的高度——它不仅能生成画面,还能同步生成与画面严丝合缝的立体声音效,真正实现了”音画一体”的 AI 创作。

Seedance 2.0 的核心能力

表5-6 Seedance 2.0核心能力介绍

能力维度 说明
多模态输入 同时接受文字、图片(最多 9 张)、视频(最多 3 段)、音频(最多 3 段)作为输入
物理规律还原 精准呈现衣物重力感、光影折射、流苏甩动等物理细节
音画同步 集成双声道立体声,背景音乐、环境音效与画面动作精确对齐
导演级可控性 支持对表演、光影、运镜的精细调度,可按分镜脚本逐镜头生成
视频延长 支持”接着拍”功能,在已有视频基础上按提示词续拍新镜头

技术真相:Seedance 能”还原”重力和折射,并不意味着它理解牛顿定律或光学原理。它只是看过了数亿段视频后,总结出”东西掉下来应该是什么样”的概率分布。AI 模拟的是数据中的统计规律,而非物理定律本身——这是”数据驱动的现实感”,不是”理解现实”。认清这一点,有助于祛除对 AI”无所不能”的盲目崇拜。

体验地址:在豆包(doubao.com)中即可使用 Seedance 视频生成功能。 技术主页:https://seed.bytedance.com/zh/seedance2_0

提示词赏析:看看专业级 Prompt 长什么样

与文字对话中简短的提示词不同,视频生成的提示词往往需要像电影分镜脚本一样详细——描述镜头运动、人物动作、光影氛围、甚至声音设计。以下是 Seedance 2.0 官方展示的几个代表性提示词。

示例 1:竞技级双人花样滑冰(文生视频)

竞技级双人花样滑冰现场。开场低机位跟随冰刀滑行,冰屑与反光细节清晰。进入旋转段,男选手轴线微偏出现失误,旋转节奏短暂塌陷。女选手迅速调整重心,眼神冷静并示意”Stay with me”,主动引导男选手重新对齐节奏。随后无缝衔接托举动作,线条干净稳定。高潮为同步跳跃组合,空中姿态笔直,落冰果断,音画完美对齐。女选手身着深蓝花滑裙,男选手为竞技运动装。整体呈现从紧张失误到冷静完成比赛的完整叙事,体现顶级双人花样滑冰中的技术能力与心理强度。

这段提示词的写作技巧值得学习:它不仅描述了”画面是什么”,还构建了一个从失误到恢复的叙事弧线,并指定了镜头角度(低机位跟随)、细节特写(冰屑与反光)和情绪变化。

示例 2:穿越世界名画(多模态参考生成)

女孩打破次元壁,连续穿越多幅名画世界,保留真实质感,油画世界呈现 3D 高饱和度动画风格。她站在《星空》的旋转星空下神情激动;接着好奇看着情侣拥抱的画面;随后与《戴珍珠耳环的少女》一起自拍;紧接着在两名武士中间穿过;跑到《蒙娜丽莎》身旁,被摸头贴脸……对比度高,电影质感,转场丝滑无缝,人物鲜活。

这个案例展示了 Seedance 2.0 的”全能参考”能力——用户同时上传多张名画图片作为参考素材,模型理解每幅画的内容并让真人角色与之互动。

示例 3:武侠风格视听大片(文生视频 + 音效同步)

武侠风格视听大片,竹林里白衣剑客与蓑衣刀客对峙。镜头在两人之间缓慢推移,焦点在雨滴和剑柄之间切换,气氛压抑到极点,只能听见雨声。突然一道惊雷闪过,两人同时冲锋,侧拍镜头极速平移,捕捉泥浆飞溅的脚步。双兵相接瞬间画面切换为极慢动作,清晰展示刀剑震飞雨水形成的圆环激波,以及被剑气切断的竹叶。随后恢复常速两人背对背落地,蓑衣刀客的斗笠裂开,画面戛然而止。

注意这段提示词如何精确控制镜头语言(缓慢推移→极速平移→极慢动作→恢复常速)和声音设计(雨声→惊雷→刀剑撞击),这正是 Seedance 2.0 音画同步能力的最佳体现。

提示词的”导演视角”:一段提示词的结构拆解

以武侠大片的提示词为例,拆解其中不同层次的信息:

┌─────────────────────────────────────────────────┐
│  【场景设定】 竹林里白衣剑客与蓑衣刀客对峙        │
├─────────────────────────────────────────────────┤
│  【运镜指令】 缓慢推移 → 极速平移 → 极慢动作      │
│              → 恢复常速 → 画面戛然而止             │
├─────────────────────────────────────────────────┤
│  【材质细节】 冰屑反光 / 泥浆飞溅 / 斗笠裂开      │
├─────────────────────────────────────────────────┤
│  【声音设计】 雨声 → 惊雷 → 刀剑撞击 → 静默       │
├─────────────────────────────────────────────────┤
│  【情绪节奏】 压抑 → 爆发 → 慢镜凝视 → 戛然而止   │
└─────────────────────────────────────────────────┘

写视频提示词时,可以有意识地从这五个层次逐一填充,像导演写分镜一样构建画面。

从这些提示词中学到什么?

对比第三章学过的文字对话提示词,视频生成提示词有几个显著特点:

  1. 镜头意识:需要指定机位(低机位、侧拍)、运镜方式(跟随、推移、环绕)和景别变化;
  2. 时间线叙事:按时间顺序描述动作序列,而非静态场景;
  3. 多感官描写:不仅写画面,还写声音、光影、材质触感;
  4. 情绪节奏:通过动作快慢、镜头切换控制观众的情绪起伏。

这些技巧不仅适用于 Seedance,也适用于 Sora、Runway 等其他视频生成工具。掌握”像导演一样写提示词”的能力,将成为 AI 时代内容创作者的核心竞争力。

主线任务:制作一段 60 秒的课程介绍短视频

选择正在学习的一门课程,完成以下任务: 1. 使用 DeepSeek 生成分镜脚本(6—8 个镜头); 2. 使用剪映”AI 生成”功能(图片生成 + 视频生成)创建各镜头素材,组合为初版视频; 3. 进行至少 3 处手动调整(替换素材、修改字幕、添加转场等); 4. 导出最终成片。

拓展任务:微课片头制作

使用数字人工具制作一段 15 秒的微课片头,包含课程名称、教师介绍和欢迎语。

阅读材料:数字人直播——茶商用 AI 分身 7×24 小时直播的案例

2024 年,一位福建茶商尝试使用 AI 数字人进行直播带货。他录制了一段 1 分钟的真人视频用于训练数字人形象,然后将产品介绍话术输入系统,数字人便能 7×24 小时不间断直播。据报道,该数字人直播间的月均销售额达到了真人直播间的 60%—70%,而人力成本几乎为零。

这一案例展示了数字人技术在商业领域的巨大潜力,但也引发了思考:当消费者发现与自己互动的”主播”其实是 AI 时,他们会作何感想?商家是否有义务告知消费者正在与数字人交流?

5.3 全流程自动化综合实战

当文字、图像、音频、视频的 AI 工具串联起来,一个人就能完成过去需要整个团队才能交付的工作。

一、综合案例:从访谈录音到演讲稿的全闭环

假设参加了一场行业访谈,需要将录音整理为一份完整的汇报材料。传统流程需要多人协作,而借助 AI 工具链,一个人即可完成全部环节。

全流程工具链:

表5-7 从访谈录音到演讲稿的AI工具链

步骤 任务 工具 输出
1 录音转文字 通义听悟 带说话人标注的文字稿
2 提炼要点 DeepSeek 结构化的要点摘要
3 生成 PPT 大纲 DeepSeek 分页大纲与备注
4 制作 PPT AiPPT 完整演示文稿
5 撰写演讲稿 DeepSeek 配合 PPT 的口播文案
6 生成配音 讯飞智作 / 剪映 演讲音频

操作示范:

下面以”采访一位创业校友”为场景,演示每个步骤的具体操作。

步骤 1:录音转文字

打开通义听悟(tingwu.aliyun.com),点击”上传音视频”,选择采访录音文件(支持 MP3、WAV、MP4 等格式)。

图5-6 通义听悟上传界面

上传完成后,系统会自动进行语音识别。等待处理完毕,会看到带有说话人标注的完整文字稿。点击”导出”,选择”文本格式”,复制全部内容。

步骤 2:用 DeepSeek 提炼要点

将文字稿粘贴到 DeepSeek,输入以下提示词:

以下是一段创业校友访谈的文字记录。请完成:
1. 提炼 5 个核心观点,每个观点用一句话概括;
2. 整理 3 条可引用的精彩原话(保留原文);
3. 归纳访谈中提到的关键数据(如融资金额、用户数等);
4. 用 3 句话总结这次访谈的核心主题。

[粘贴文字稿]

DeepSeek 输出示例:

核心观点: 1. AI 工具让小团队也能做出大公司级别的产品; 2. 创业初期最重要的不是技术,而是找到真实的用户需求; 3. 大学期间的项目经历是最好的创业预演; 4. 融资不是目的,可持续的商业模式才是关键; 5. 失败的经验比成功的经验更有价值。

精彩原话: 1. “我们第一个产品失败了,但那次失败教会我的东西,比 MBA 课程还多。” 2. “不要等准备好了再开始,边做边学才是最快的成长方式。” 3. “AI 不会取代创业者,但会用 AI 的创业者会取代不会用的。”

步骤 3:生成 PPT 大纲

将提炼的要点发给 DeepSeek:

请根据以下访谈要点,生成一份 8 页的 PPT 大纲。
每页包含:页面标题、3 个要点、备注栏(演讲提示)。
第 1 页为封面,最后一页为总结与致谢。

[粘贴上一步的输出]

步骤 4:制作 PPT

将生成的大纲导入 AiPPT 一键生成演示文稿(详见 3.4 节的操作流程)。

步骤 5:撰写演讲稿

请根据以下 PPT 大纲,为每页撰写 30 秒的演讲稿。
要求:口语化表达,每页之间有自然过渡,
总时长控制在 5 分钟以内。
开头用一个故事引入,结尾呼应开头。

[粘贴 PPT 大纲]

步骤 6:生成配音

打开讯飞智作,将演讲稿粘贴到编辑区,选择”沉稳男声”或”知性女声”音色,调整语速为正常偏慢(适合演讲场景),合成并导出 MP3 文件。

二、跨平台内容转换

同一份素材,在不同平台需要不同的呈现形式。AI 可以帮助快速完成格式转换。

案例:抖音热点视频 → 小红书图文笔记

我有一段关于"大学生 AI 学习方法"的抖音短视频,
以下是视频的逐字稿。请将其转换为一篇小红书图文笔记:
1. 标题使用"数字型"公式(参考 3.3 节);
2. 正文 300 字以内,分 4 个要点,每个要点配 emoji;
3. 结尾设置互动问题;
4. 附 5 个话题标签。

[粘贴视频逐字稿]

常见的跨平台转换路径:

表5-8 内容跨平台转换路径

原始内容 目标平台 转换要点
长视频 短视频平台 提取高光片段,添加字幕和节奏感
短视频 图文平台 提炼文字要点,配图排版
文章 播客/音频 改写为口语化表达,生成配音
PPT 短视频 逐页录屏或转为分镜脚本

思辨时刻:当无法分辨真假视频——Deepfake 的识别与伦理

Deepfake(深度伪造)技术利用生成对抗网络(GAN),可以将一个人的面部特征”贴”到另一个人的视频中,生成高度逼真的换脸视频。

如何识别 Deepfake 内容?

观察以下细节破绽: 1. 眨眼频率:伪造视频中人物的眨眼频率往往异常(过快、过慢或不眨眼); 2. 光影一致性:人脸的光影方向是否与背景环境光一致,边缘是否模糊; 3. 口型同步:口型是否与声音完美同步,牙齿细节是否自然; 4. 微表情与轮廓:表情是否僵硬,下巴、发际线等边缘是否有伪影。

现实案例:

2024 年,香港某跨国公司的财务人员收到”公司高管”的视频会议邀请。会议中,多位”高管”通过视频通话下达了转账指令。财务人员按指示操作,最终被骗走约 2 亿港元。事后调查发现,会议中的所有”高管”都是 AI 生成的 Deepfake 形象。

思考以下问题: 1. 在 AI 生成内容越来越逼真的今天,“眼见为实”这一常识是否还成立? 2. 平台是否有责任对 AI 生成的音视频内容进行标注?如何在技术上实现? 3. 如果有人用他人的照片和声音生成了虚假视频,应该如何维权?


本章小结

本章从 AI 音频创作入手,延伸至视频制作,最终通过全流程综合实战,展示了”一人即团队”的 AI 协同创作模式。技术门槛的降低使人人都能成为内容创作者,而叙事能力——用画面讲故事的能力——成为真正的核心竞争力。

小节 核心内容 关键概念
5.1 AI 音频创作 使用 Suno 生成原创音乐,掌握语音合成(TTS)技术制作配音或声音克隆 Suno、语音合成(TTS)、声音克隆
5.2 AI 视频制作 制作数字人口播视频,学习视频叙事的”钩子—内容—行动”三段式结构 数字人、视频叙事、剪映 AI
5.3 全流程自动化综合实战 构建”文案 → 语音 → 画面 → 剪辑”的全自动视频生产工作流 全流程工具链、自动化协作

工具帮助生成画面、配上音乐、合成语音,但叙事节奏的把控仍然是人的功夫。第二篇至此完结,下一篇将进入数据洞察与智能体搭建的进阶领域。

第五章 实践与练习

视频是时间的艺术。AI 帮你节省了制作的时间,是为了让你花更多时间去打磨故事。

一、选择题

  1. Suno 生成音乐时,以下哪种方式能更精确地控制生成结果?
    • A. 在简单模式下输入一句话描述
    • B. 在自定义模式下分别输入歌词和风格标签
    • C. 同时上传一段参考音频
    • D. 使用更长的文字描述
  2. 现代 AI 语音合成(TTS)听起来越来越像真人,核心原因是:
    • A. 使用了更高采样率的音频格式
    • B. 声学模型通过学习大量真人语音掌握了语调和节奏规律
    • C. 直接拼接了真人录音片段
    • D. 使用了更好的麦克风录制
  3. 短视频的”钩子—内容—行动”三段式结构中,“钩子”的作用是:
    • A. 总结视频的核心观点
    • B. 在前几秒抓住观众注意力
    • C. 引导观众点赞关注
    • D. 介绍视频的背景信息
  4. 以下哪项是识别 Deepfake 视频的有效方法?
    • A. 检查视频的文件大小
    • B. 观察人物的眨眼频率和光影一致性
    • C. 查看视频的上传时间
    • D. 检查视频的分辨率

二、简答题

  1. 请用自己的话解释 AI 语音合成(TTS)的工作流程,并说明它与早期”机器人腔”语音合成的本质区别。

  2. 在制作短视频时,为什么”钩子”(Hook)如此重要?请列举三种常用的钩子写法,并各举一个例子。

三、实操题

  1. AI 音乐创作:使用 Suno,为所在学校的某个社团或活动创作一首主题曲。要求:使用自定义模式,自行撰写至少一段歌词(Verse)和一段副歌(Chorus),选择合适的风格标签,生成后记录使用的完整提示词。

  2. 短视频制作:选择一个感兴趣的主题(如”大学生必备的 3 个 AI 工具”),使用 DeepSeek 生成分镜脚本,再用剪映”AI 生成”功能创建素材并剪辑成片。要求:至少 6 个镜头,开头有钩子,结尾有行动号召。

  3. Deepfake 辨别练习:在网络上搜索 3 个 AI 生成的人物视频(如数字人播报、AI 换脸视频),尝试用本章介绍的 4 个识别维度(眨眼频率、光影一致性、口型同步、微表情轮廓)逐一分析,记录观察结果。

  4. 人文创作(选做):用 AI 为家乡或学校制作一段 1 分钟的”治愈系情书”短视频。要求:用 Suno 生成一段温暖的背景音乐,用 TTS 录制一段深情的旁白,用剪映组合画面。重点不在技术炫技,而在于用镜头、音乐和文字表达对一个地方的真实情感。

参考答案(选择题):1-B 2-B 3-B 4-B

四、进阶挑战:虚拟数字人主播

背景:学校广播台想开设一个”午间 AI 播报”栏目。

任务

  1. 形象:用即梦 AI 生成一个”极具亲和力”的虚拟主播形象(2D 二次元或 3D 写实均可)。
  2. 声音:用 TTS 工具为他/她匹配一个好听的声音。
  3. 播报:用 DeepSeek 生成一段 200 字的”校园新闻快讯”(包含天气、食堂菜谱、社团活动)。
  4. 合成:让数字人播报这段新闻(使用 D-ID 或 HeyGen 试用版)。

思考:相比真人主播,虚拟主播的优势是什么?(24小时在线、不念错字、多语言)。劣势是什么?(缺乏真实的情感连接)。

五、延伸阅读

  1. 伦理:了解”AI 换脸诈骗”的真实案例,提高防范意识
  2. 教程:剪映官方教程 —— 包含剪辑的所有基础逻辑(景别、蒙太奇、转场)