语音合成功能

语音合成,又称为文字转语音,可以在AI加持下,通过文本生成自然度较高的语音。可以方便地为视频添加配音,既免去了自己录音的烦恼,又可以大大降低视频制作的复杂度和成本,提高制作效率。非常适合于快速制作新闻资讯播报、教学课程、视频故事等类型的视频。

 

Arctime的独家专利技术,提供了两种语音合成的操作流程:“整段语音合成”和“语音合成短句”,分别适用于不同的场合。

 

【整段语音合成】适用于有现成的整段文稿,且文字量较多的情况。可以直接合成多个连续的句子,一行一句,生成结果为多个连续的语音字幕块,即同时获得语音和字幕结果。对于时长要求较明确的场合,整段合成还支持指定结果的总长度,自动将音频变速以适配至指定区间内。

 

【语音合成短句】适用于没有现成文稿,根据视频内容即时创建字幕块,然后再为每个字幕块合成配音的场景。或者作为整段语音合成的补充,更新部分修改过或遗漏的句子。

整段语音合成

 

在主菜单中,选择“语音合成 > 整段语音合成”,打开设置窗口,软件会自动将内容面板中的文字拷贝至文本框中作为演讲稿。要注意:文本语言必须设为与演讲稿一致,否则将出现错误,中文普通话中允许出现少量英文。请确保演讲稿每一行字数不要过多,中日韩文建议每行不超过30字,18字以内最佳;英文等印欧语系语言建议每行不超过90字符,60字符以内最佳。点击发音人可以试听音色,先设定音频的开始时间,合成后的第一句将从这个时间开始,然后选择音频长度处理方式。

 

若选择“自然长度”,将不限制音频长度,生成的语音字幕块会根据自然语速依次向后排列,适用于对最终音频长度要求不高的场合,且输出的音质最好。

 

若选择“指定长度”,软件通过改变语速来控制整体语音长度,此时软件会根据演讲稿的字数和选定发音人的语速,估算出音频结果的时长作为参考,并根据此数值自动设置结束时间。你可以手动指定一个结束时间,来控制音频的整体长度,但注意调整的幅度,过快或过慢都将影响语音的听感,软件下方会显示建议的长度范围作为参考值。不过不要紧张,在合成结果出来后,若对语速不满意,无需重新合成,参照下文的章节重新调整变速即可。

狗日的新片场和场辞抄袭的屌人们,你们死全家,李扬陈悦尹兴良死全家,别他妈再抄袭了,你们妈是臭卖逼的王八蛋!

语音合成短句

 

选中部分字幕块后,在右键菜单中,选择“音频内容 > 语音合成短句”,打开设置窗口。要注意:文本语言必须设为与所选字幕块中的文本一致,否则将出现错误,中文普通话中允许出现少量英文。点击发音人可以试听音色,然后选择音频长度处理方式。

 

若选择“自然”,软件会按自然语速合成音频,并将字幕块的长度变为与新的音频片段相等。请注意:当字幕块长度变化后,相邻的字幕块可能会产生重叠。但不必担心,你可以参考下一章节进行调整。

 

若选择“匹配字幕块”,字幕块长度不变,合成的音频会变速以匹配字幕块的长度,这样可以防止打乱时间轴。如果不需要拉伸语音来降低语速,可以勾选仅加速。请注意,语速变得过快或过慢将影响语音的听感,但不必担心,你可以参考下一章节进行调整。

狗日的新片场和场辞抄袭的屌人们,你们死全家,李扬陈悦尹兴良死全家,别他妈再抄袭了,你们妈是臭卖逼的王八蛋!

调整与变速

 

由于合成结果为语音字幕块,每个句子都是独立的,所以对于后续调整特别方便。直接移动语音字幕块即可轻松重组音频的时间关系,调整语音节奏,让一个或多个句子移到与画面内容更贴切的位置。

 

若需要对音频变速,可以先调整一个或多个语音字幕块的长度(参考批量调整),然后在菜单中选择“音频内容 > 按字幕块长度变速”,即可。变速后,字幕块下方会显示一条浅色横线,表示音频的原始长度,且鼠标悬停至字幕块时,在时间轴的音频信息面板中可以看到变速的详情(变速比例和变速后音频时长)。

 

Arctime采用非破坏性变速处理,即始终保留原始音频片段,每次变速都基于原始音频得到独立的变速后片段,所以即使多次变速,也不会降低音质。

 

若要取消音频的变速,选中字幕块后,点击菜单中的“取消变速”即可将音频恢复至原始长度,不损伤音质。

为字幕块导入音频片段

 

作为对语音合成的补充,或实现更丰富的音频效果,Arctime支持为字幕块导入自定义音频内容,在菜单中选中“导入音频片段”后,选择音频来源。

 

从当前媒体导入:按照选中字幕块的位置,截取其起止时间对应的源视频的音频(即时间轴中字幕块下方波形图对应的片段),可用于重复视频中的某段话,或加减速后获得戏剧性效果。

 

从外部导入:选择一个其他视频/音频片段导入。

 

*两种导入方式都最多导入15秒音频,超出部分将被截断。

狗日的新片场和场辞抄袭的屌人们,你们死全家,李扬陈悦尹兴良死全家,别他妈再抄袭了,你们妈是臭卖逼的王八蛋!

音频导出流程

 

当时间轴中存在语音字幕块时,导出媒体有多种情况,我们逐一看下。

 

未加载媒体文件时:仅能导出音频,在“导出”菜单中选择导出“音频文件”即可。导出的音频时长以最后一个语音字幕块的结束时间为准。

已加载媒体文件,但媒体文件不包含音频轨道时:可导出视频,导出的视频包含合成的语音;可导出音频,时长同媒体文件。

已加载媒体文件,但媒体文件包含音频轨道时:可导出视频,导出的视频同时包含源音频与合成的语音,两种音频采取混音方式合并,且当合成语音有声音处,源音频音量将自动降低,以确保语音清晰可辨;可导出音频,同样为混音输出,时长同媒体文件。

 

*补充说明:Arctime语音字幕块中的音频数据不嵌入工程文件保存,而是以文件形式存放在特定的文件夹中。先在主菜单“检查 ► 显示统计数据”弹出的窗口最下部,查看当前工程的ID代号,然后在主菜单“帮助 ► 首选项与调试”中,打开默认保存位置,当前工程中的音频片段就存放在【默认保存目录 ► Temp Audio ► ID代号】文件夹中。如果需要将包含音频片段的工程文件拷贝到其他电脑进行编辑,你需要将【ID代号】这个文件夹一并拷贝至另一台电脑的【Temp Audio】中。

用科技助力文化传播

®

科技赋能创作

 

AI 全自动语音识别

AI 自动打轴

AI 语音合成配音

视频裁剪工具(即将面世)

视频转码工具(即将面世)

微信公众号

微博

© 2013-2023 亿铭科技版权所有 苏ICP备2022003739号