0

我使用工具 CMUCLMTK 使用来自维基百科转储的数据构建了泰米尔语语言模型。现在,我如何生成语音转录并在模型中替换它们。维基文章 ( http://cmusphinx.sourceforge.net/ wiki/phonemerecognition)说要替换转录而不是单词。我现在应该做什么?

4

1 回答 1

1

你可以编写一个 python 脚本来用它的音素替换一个字符。英语中大约有 44 个音素,您可以简单地创建一个字典,将一个字符映射到它的音素。并且要将您的转录转换为音素,只需将每个单词分解为字符并通过匹配字典中的字符替换为它的音素。您可以使用词频或 tf-idf 使这更有趣

于 2017-04-07T11:41:18.763 回答