2

我正在使用节日的 2.1 版本。我能够安装和使用 172M 语音

(voice_cmu_us_slt_arctic_clunits)

质量得到了显着提高,但远未达到预期。我相信一代仍然使用很多默认值。是否可以进一步调整(例如接近 qwiki.com 引擎的质量)?我知道我需要适当的组合

  • 合成方法
  • 语调/持续时间设置
  • 音频输出参数
  • XX?

但是很难找到所有的细节(进展相当缓慢)。

任何提示、教程/文档链接(旧版本但提供一些理论概述)或方案片段都将受到赞赏。

附言

请注意,到目前为止,我对算法本身的调整不感兴趣(例如用sphinx训练语音模型)。

要生成语音,我使用类似的命令

(SayText "This is a short introduction ...")

./text2wave -eval '(voice_cmu_us_slt_arctic_clunits)' TEXT > output.wav
4

0 回答 0