6

是否有可能以编程方式获取某人的语音样本并产生可用于创建合成语音的独特音调/属性?

例如,A 人记录自己。从这个语音样本中产生了一种独特的音调,并被转化为合成语音。这允许人们在文本转语音软件中使用这种合成语音,编写他们想要的任何文本,这些文本将以 A 的声音朗读。

用今天的话说有可能吗?我知道有些公司专业地做这件事,但一般来说,一个软件有可能做到这一点吗?

4

3 回答 3

4

使用说话人适应方法,您可以用相对较少的训练样本获得一些结果,但您仍然应该有数百个该人的句子 - 最好使用音标。

我们曾经将其作为一个小型实验室练习,让学生录制自己的声音并使用 HTS ( http://hts.sp.nitech.ac.jp/ ) 训练语音模型。使用 HTS 的“最简单”的方法是从此页面下载“Speakerdependent training demo”,并将训练语音样本替换为您自己的录音(相同的句子!)。不过,我们用我们自己的包为另一种语言做了这个。

我认为 MaryTTS ( http://mary.dfki.de/ ) 有一些更方便的工具来协助这个过程,但我从来没有使用过。

但是仍然 - 对于高质量的声音,您应该有数千个录制的句子。

于 2014-08-29T13:34:34.520 回答
0

七年后,您可以使用语音进行文字转语音:

Overdub:超逼真的文本到语音语音克隆 https://www.descript.com/overdub

彭博社有一部关于“琴鸟”的纪录片,这是一种神经网络,可以学习你的声音,然后你可以用它来造句。Descript 由制作 Lyrebird 的人创立,现在提供这项服务,以及合成音频的非线性编辑。

YouTube 上彭博纪录片的链接: https ://www.youtube.com/watch?v=VnFC-s2nOtI

于 2021-12-10T17:50:11.233 回答
0

在 2021 年及以后,我建议使用mozilla/tts,如果您想介入并使用现有的、经过验证的堆栈,这是最好的选择。

于 2021-12-09T11:28:48.287 回答