我正在使用节日的 2.1 版本。我能够安装和使用 172M 语音
(voice_cmu_us_slt_arctic_clunits)
质量得到了显着提高,但远未达到预期。我相信一代仍然使用很多默认值。是否可以进一步调整(例如接近 qwiki.com 引擎的质量)?我知道我需要适当的组合
- 合成方法
- 语调/持续时间设置
- 音频输出参数
- XX?
但是很难找到所有的细节(进展相当缓慢)。
任何提示、教程/文档链接(旧版本但提供一些理论概述)或方案片段都将受到赞赏。
附言
请注意,到目前为止,我对算法本身的调整不感兴趣(例如用sphinx训练语音模型)。
要生成语音,我使用类似的命令
(SayText "This is a short introduction ...")
和
./text2wave -eval '(voice_cmu_us_slt_arctic_clunits)' TEXT > output.wav