speech-recognition - 如何使用 CMU Sphinx 进行强制对齐音素识别？

Question

我正在研究简单的 TTS 引擎。最好有一个自动双音素分割系统，它采用录音机声音和音素下标（对于单个话语）并设置声音中的音素边界。可以用 CMU Sphinx 完成吗？我应该使用哪个版本的狮身人面像？

score 2 · Accepted Answer

您可以使用 Sphinxtrain 训练特定于您的扬声器的扬声器相关模型。有关培训的更多详细信息，请参阅

http://cmusphinx.sourceforge.net/wiki/tutorialam

要分割数据库，您可以使用 sphinx3_align 二进制文件，如下所示：

  sphinx3_align \
    -hmm <model_dir> \
    -dict dictionary.dic \
    -ctl db.fileids \
    -cepdir <feats_folder> \
    -cepext .mfc \
    -insent db.transcription \
    -outsent db.out \
    -phlabdir phlabdir

电话级别对齐将在名为 phlabdir 的文件夹中创建

speech-recognition - 如何使用 CMU Sphinx 进行强制对齐音素识别？

1 回答 1

Related

Reference