配音、BGM 与音效

AI 漫剧的灵魂不只在画面，更在声音。配音赋予角色生命，BGM 传递情绪，音效增加沉浸感。本章从工具选择到实操流程，手把手教你搞定声音层。

配音工具对比

工具	价格	中文效果	免费额度	特点
豆包 TTS	免费	★★★★★	无限制	日常配音首选，音色丰富，在线生成秒出
讯飞配音	¥30/月起	★★★★★	3000 字/天	专业旁白最佳，情感表达细腻，商用授权
Fish Audio	~$1/1000 字符	★★★★★	1 万字符/月	声线克隆（上传一段音频就能克隆），适合自定义角色音
CosyVoice 2	开源免费	★★★★★	无限（本地运行）	阿里开源，需本地部署 GPU，效果逼近商用
MiniMax T2A	按量计费	★★★★★	新用户赠送额度	API 调用，情感控制好，支持 SSML 标签精细控制

推荐组合

新手起步：豆包 TTS（免费，音色多，足够做前几集试水）。
稳定出品：讯飞配音做旁白 + 豆包做对话（性价比最高的组合）。
自定义需求：Fish Audio 克隆特定声线，或 CosyVoice 2 本地部署无限用。

角色音色选择指南

不同角色类型对应不同的音色特征。选对了音色，角色立刻有了生命力；选错了，观众出戏。

角色类型	推荐音色特征	推荐工具 / 音色名
霸总男主	低沉、沉稳、有磁性	豆包-"浩然" / 讯飞-"商务男声"
温柔女主	轻柔、甜美、有亲和力	豆包-"晓晓" / 讯飞-"柔美女声"
反派	阴沉、冷酷、有压迫感	讯飞-"沉稳男声"（语速放慢 10%）
旁白	清晰、中性、有故事感	讯飞-"纪录片男声" / 豆包-"云健"
少年热血	清亮、有朝气、语速偏快	豆包-"云扬" / 讯飞-"活力男声"
古风角色	温润、古典、吐字清晰	Fish Audio 自定义克隆 / 讯飞-"古风男/女声"
御姐 / 强势女性	低沉、干练、有气场	豆包-"晓梦" / 讯飞-"知性女声"
搞笑配角	夸张、有喜感、语调多变	豆包-"欢乐哥" / 自定义调高语速+音调

重要：选定每个角色的音色后，整部剧保持不变。中途换声音等于换演员，观众会混乱。建议在制作第一集前就确定好所有角色的音色配置表。

BGM 选择

BGM 是"情绪底色"。对的 BGM 让观众不知不觉代入情绪，错的 BGM 让人出戏。按情绪分类推荐如下：

情绪	推荐曲风	免费来源	搜索关键词
燃 / 热血	电子摇滚、管弦乐、史诗交响	Pixabay / Suno 生成	epic orchestral, action rock, intense
虐 / 悲伤	钢琴独奏、弦乐四重奏	Pixabay / Suno	sad piano, melancholic strings, emotional
甜 / 温馨	轻快吉他、温暖钢琴、ukulele	Pixabay / Suno	sweet guitar, warm piano, happy ukulele
悬疑 / 紧张	电子 ambient、低频嗡鸣	Pixabay / Suno	dark ambient, suspense, tension drone
日常 / 轻松	轻爵士、lo-fi、轻快节奏	Pixabay / Suno	lofi chill, light jazz, casual background
古风 / 仙侠	古筝、笛子、琵琶、空灵人声	Pixabay / Suno / 爱给网	Chinese traditional, guzheng, bamboo flute

用 Suno 生成自定义 BGM

找不到合适的免费 BGM？用 Suno AI 自己生成。Suno 可以根据文字描述生成完整音乐，每月有免费额度。

Prompt 写法示例：

悲伤钢琴 BGM

Melancholic piano solo, slow tempo, minor key, emotional and cinematic, no vocals, 120 seconds

热血战斗 BGM

Epic orchestral battle music, fast tempo, drums and strings, intense and powerful, no vocals, 90 seconds

温馨日常 BGM

Light acoustic guitar with soft piano, warm and cozy, moderate tempo, no vocals, background music, 120 seconds

古风 BGM

Traditional Chinese guzheng with bamboo flute, ethereal and peaceful, slow tempo, no vocals, 120 seconds

Suno 推荐参数：选"Instrumental"模式（纯音乐无人声），时长 2 分钟以上可循环使用。每首生成 2 个版本，挑节奏稳定的那个。

音效素材

音效是画面的"点睛之笔"。一个恰到好处的"啪"声配合打脸画面，效果提升 10 倍。以下是 AI 漫剧中最高频使用的 30 个音效场景：

#	场景	音效描述	免费来源
1	打脸	清脆的"啪"一声巴掌	爱给网 / Freesound
2	震惊	玻璃碎裂 / 雷声 / "叮"的一声	爱给网 / Freesound
3	推门	吱呀开门声 / 沉重关门声	Freesound
4	脚步	高跟鞋 / 皮鞋 / 拖鞋走路声	Freesound
5	心跳	砰砰心跳，从慢到快	Freesound / Pixabay
6	手机震动 / 来电	手机铃声、震动嗡嗡声	Freesound
7	雨声	小雨淅沥 / 大雨倾盆 / 雷阵雨	Freesound / Pixabay
8	风声	微风 / 狂风呼啸	Freesound
9	杯子/碗碎	陶瓷摔碎声	Freesound
10	拍桌子	用力拍桌子的"砰"声	Freesound
11	车门	汽车开门 / 关门声	Freesound
12	引擎声	跑车引擎启动 / 开走	Freesound
13	人群嘈杂	餐厅 / 办公室背景人声	Freesound / Pixabay
14	鼓掌	掌声 / 欢呼声	Freesound
15	键盘打字	快速打字声 / 单击回车	Freesound
16	翻页/信封	纸张翻动声 / 拆信封	Freesound
17	倒水	水流入杯中	Freesound
18	电梯	电梯"叮"声 / 门开关	Freesound
19	哭泣	抽泣声 / 啜泣声（用 TTS 单独生成也行）	Freesound
20	笑声	轻笑 / 大笑 / 嘲讽冷笑	Freesound
21	叹气	深深叹息一声	Freesound
22	拳头握紧	骨节咔咔声（可用衣服褶皱声代替）	Freesound
23	刀剑出鞘	金属摩擦声 / 拔剑声	Freesound / 爱给网
24	爆炸	爆炸轰鸣声	Freesound / Pixabay
25	门铃	"叮咚"门铃声	Freesound
26	闹钟	清晨闹钟响 / 手机闹铃	Freesound
27	转场音效	"嗖"的快速过渡音 / "whoosh"	Freesound / Pixabay
28	回忆闪回	梦幻回声效果 / 时钟倒转声	Freesound
29	鸟鸣	清晨鸟叫声（户外场景环境音）	Freesound / Pixabay
30	城市街道	车辆经过、喇叭声、行人（都市环境音）	Freesound / Pixabay

音效素材网站速查

Freesound.org —— 全球最大的免费音效库，需注册，CC 协议（注意选 CC0 的可商用）

Pixabay.com/sound-effects —— 免费商用，无需署名，数量较少但质量高

爱给网 (aigei.com) —— 中文音效库，有大量中文场景音效，部分需付费

剪映自带音效库 —— 在剪映编辑器内搜索音效，方便但种类有限

音量平衡黄金法则

声音层次的核心原则：人声 > 音效 > BGM > 环境音。观众首先要听清台词，其次感受音效冲击，再然后才是 BGM 和环境氛围。

声音层	推荐音量	在剪映中的设置	说明
人声（配音）	-6dB 到 -3dB	音量滑块 80-100%	最大声，必须清晰可辨
音效	-12dB 到 -8dB	音量滑块 40-60%	明显可闻但不压过人声
BGM	-18dB 到 -20dB	音量滑块 15-25%	能感受到但不干扰台词
环境音	-24dB 到 -18dB	音量滑块 10-20%	若有若无地增加沉浸感

有人声对话时

BGM 自动降到 15-20%（剪映可设"闪避"自动降低）
音效如打脸、摔杯可以短暂超过人声音量
环境音保持最低，避免喧宾夺主

无对话的纯画面段

BGM 可以提升到 30-40%，成为情绪主导
环境音可以提升增加氛围
典型场景：雨中独行、夕阳回忆、城市空镜

剪映"音频闪避"功能：选中 BGM 轨道 → 右键 → 音频闪避 → 设置闪避量 -6dB 到 -10dB。这样当配音轨有声音时，BGM 会自动降低，配音停止时 BGM 自动恢复。这是最省事的混音方式。

配音实操流程

以下是从剧本台词到成品音频的完整工作流：

按角色分组台词

把剧本中的台词提取出来，按角色分组。例如：男主台词 20 句、女主台词 15 句、旁白 10 句、反派 5 句。每个角色的台词整理成一个文档，方便批量生成。

为每个角色选定音色

参考「角色音色选择指南」，在 TTS 工具中试听不同音色，选择最匹配角色气质的。建议制作一张「角色-音色对照表」，记录每个角色使用的工具和音色名。

在 TTS 工具中生成

将台词逐句输入 TTS 工具，调整语速（通常 0.9-1.1 倍速）、语调（情绪激动的台词可以调高）。注意标点符号会影响停顿：逗号短停，句号长停，省略号拉长。

导出音频文件

导出格式选 .wav（无损质量最好）或 .mp3（文件小，质量够用）。采样率选 44100Hz 或 48000Hz。命名规则：角色名_序号_台词摘要.wav，如 male_01_你好.wav。

在剪映中导入配音

打开剪映 → 导入所有音频文件 → 拖到音频轨（配音轨）→ 按镜头时间线逐条对齐。技巧：先放好视频段，再根据口型（虽然是动画但节奏要对）放配音。

调整音量和时间对齐

配音放到 80-100% 音量 → BGM 放到 15-25% → 音效逐个对准画面（打脸声对上巴掌画面等）。最后整体试听 2-3 遍，确保没有声音断层或音量突变。

TTS 配音小技巧

同一句台词生成 2-3 次，挑语气最自然的。TTS 每次生成有微小差异。
感叹句/问句在句尾加"！"或"？"，TTS 会自动调整语调上扬。
台词之间需要停顿？在两句之间加"......"（省略号），TTS 会插入自然停顿。
角色说话速度不同：霸总慢而沉稳（0.85x），少年快而有力（1.1x），旁白中速从容（1.0x）。
避免一大段台词连续生成，拆成单句/双句效果更好，也方便后期调整。
如果某句 TTS 怎么都读不自然，试试改写台词——有时候换个说法就好了。