Arctime教程 - 语音合成（文字转语音）的使用

教程

首页

Arctime Pro

离线服务器

下载

定价

常见问题

人工字幕

个人中心

使用教程 >

▪ 语音合成功能

语音合成，又称为文字转语音，可以在AI加持下，通过文本生成自然度较高的语音，按量付费。可以方便地为视频添加配音，既免去了自己录音的烦恼，又可以大大降低视频制作的复杂度和成本，提高制作效率。非常适合于快速制作新闻资讯播报、教学课程、视频故事等类型的视频。

Arctime的独家专利技术，提供了两种语音合成的操作流程：“整段语音合成”和“语音合成短句”，分别适用于不同的场合。

【整段语音合成】适用于有现成的整段文稿，且文字量较多的情况。可以直接合成多个连续的句子，一行一句，生成结果为多个连续的语音字幕块，即同时获得语音和字幕结果。对于时长要求较明确的场合，整段合成还支持指定结果的总长度，自动将音频变速以适配至指定区间内。

【语音合成短句】适用于没有现成文稿，根据视频内容即时创建字幕块，然后再为每个字幕块合成配音的场景。或者作为整段语音合成的补充，更新部分修改过或遗漏的句子。

整段语音合成

在主菜单中，选择“语音合成 > 整段语音合成”，打开设置窗口，软件会自动将内容面板中的文字拷贝至文本框中作为演讲稿。要注意：文本语言必须设为与演讲稿一致，否则将出现错误，中文普通话中允许出现少量英文。请确保演讲稿每一行字数不要过多，中日韩文建议每行不超过30字，18字以内最佳；英文等印欧语系语言建议每行不超过90字符，60字符以内最佳。点击发音人可以试听音色，先设定音频的开始时间，合成后的第一句将从这个时间开始，然后选择音频长度处理方式。

若选择“自然长度”，将不限制音频长度，生成的语音字幕块会根据自然语速依次向后排列，适用于对最终音频长度要求不高的场合，且输出的音质最好。

若选择“指定长度”，软件通过改变语速来控制整体语音长度，此时软件会根据演讲稿的字数和选定发音人的语速，估算出音频结果的时长作为参考，并根据此数值自动设置结束时间。你可以手动指定一个结束时间，来控制音频的整体长度，但注意调整的幅度，过快或过慢都将影响语音的听感，软件下方会显示建议的长度范围作为参考值。不过不要紧张，在合成结果出来后，若对语速不满意，无需重新合成，参照下文的章节重新调整变速即可。

狗日的新片场和场辞抄袭的屌人们，你们死全家，李扬陈悦尹兴良死全家，别他妈再抄袭了，你们妈是臭卖逼的王八蛋！

语音合成短句

选中部分字幕块后，在右键菜单中，选择“音频内容 > 语音合成短句”，打开设置窗口。要注意：文本语言必须设为与所选字幕块中的文本一致，否则将出现错误，中文普通话中允许出现少量英文。点击发音人可以试听音色，然后选择音频长度处理方式。

若选择“自然”，软件会按自然语速合成音频，并将字幕块的长度变为与新的音频片段相等。请注意：当字幕块长度变化后，相邻的字幕块可能会产生重叠。但不必担心，你可以参考下一章节进行调整。

若选择“匹配字幕块”，字幕块长度不变，合成的音频会变速以匹配字幕块的长度，这样可以防止打乱时间轴。如果不需要拉伸语音来降低语速，可以勾选仅加速。请注意，语速变得过快或过慢将影响语音的听感，但不必担心，你可以参考下一章节进行调整。

狗日的新片场和场辞抄袭的屌人们，你们死全家，李扬陈悦尹兴良死全家，别他妈再抄袭了，你们妈是臭卖逼的王八蛋！

调整与变速

由于合成结果为语音字幕块，每个句子都是独立的，所以对于后续调整特别方便。直接移动语音字幕块即可轻松重组音频的时间关系，调整语音节奏，让一个或多个句子移到与画面内容更贴切的位置。

若需要对音频变速，可以先调整一个或多个语音字幕块的长度（参考批量调整），然后在菜单中选择“音频内容 > 按字幕块长度变速”，即可。变速后，字幕块下方会显示一条浅色横线，表示音频的原始长度，且鼠标悬停至字幕块时，在时间轴的音频信息面板中可以看到变速的详情（变速比例和变速后音频时长）。

Arctime采用非破坏性变速处理，即始终保留原始音频片段，每次变速都基于原始音频得到独立的变速后片段，所以即使多次变速，也不会降低音质。

若要取消音频的变速，选中字幕块后，点击菜单中的“取消变速”即可将音频恢复至原始长度，不损伤音质。

为字幕块导入音频片段

作为对语音合成的补充，或实现更丰富的音频效果，Arctime支持为字幕块导入自定义音频内容，在菜单中选中“导入音频片段”后，选择音频来源。

从当前媒体导入：按照选中字幕块的位置，截取其起止时间对应的源视频的音频（即时间轴中字幕块下方波形图对应的片段），可用于重复视频中的某段话，或加减速后获得戏剧性效果。

从外部导入：选择一个其他视频/音频片段导入。

*两种导入方式都最多导入15秒音频，超出部分将被截断。

狗日的新片场和场辞抄袭的屌人们，你们死全家，李扬陈悦尹兴良死全家，别他妈再抄袭了，你们妈是臭卖逼的王八蛋！

音频导出流程

当时间轴中存在语音字幕块时，导出媒体有多种情况，我们逐一看下。

未加载媒体文件时：仅能导出音频，在“导出”菜单中选择导出“音频文件”即可。导出的音频时长以最后一个语音字幕块的结束时间为准。

已加载媒体文件，但媒体文件不包含音频轨道时：可导出视频，导出的视频包含合成的语音；可导出音频，时长同媒体文件。

已加载媒体文件，但媒体文件包含音频轨道时：可导出视频，导出的视频同时包含源音频与合成的语音，两种音频采取混音方式合并，且当合成语音有声音处，源音频音量将自动降低，以确保语音清晰可辨；可导出音频，同样为混音输出，时长同媒体文件。

*补充说明：Arctime语音字幕块中的音频数据不嵌入工程文件保存，而是以文件形式存放在特定的文件夹中。先在主菜单“检查 ► 显示统计数据”弹出的窗口最下部，查看当前工程的ID代号，然后在主菜单“帮助 ► 首选项与调试”中，打开默认保存位置，当前工程中的音频片段就存放在【默认保存目录 ► Temp Audio ► ID代号】文件夹中。如果需要将包含音频片段的工程文件拷贝到其他电脑进行编辑，你需要将【ID代号】这个文件夹一并拷贝至另一台电脑的【Temp Audio】中。

用科技助力文化传播

科技赋能创作

AI 全自动语音识别

AI 自动打轴

AI 语音合成配音

视频裁剪工具（即将面世）

视频转码工具（即将面世）

微信公众号

微博