我正在寻找一个简单的程序来从 cmudict-0.7b 或 cmudict-0.7b.dict 生成 FST(有限状态传感器),它将与 phonetisaurus 一起使用。
我尝试了以下命令集(phonetisaurus Aligner、Google NGramLibrary 和 phonetisaurus arpa2wfst)并能够生成 FST,但它不起作用。我不确定我在哪里做错了或错过了任何步骤。我猜第一个命令,即 phonetisaurus-align,是不正确的。
phonetisaurus-align --input=cmudict.dict --ofile=cmudict/cmudict.corpus --seq1_del=false
ngramsymbols < cmudict/cmudict.corpus > cmudict/cmudict.syms
/usr/local/bin/farcompilestrings --symbols=cmudict/cmudict.syms --keep_symbols=1 cmudict/cmudict.corpus > cmudict/cmudict.far
ngramcount --order=8 cmudict/cmudict.far > cmudict/cmudict.cnts
ngrammake --v=2 --bins=3 --method=kneser_ney cmudict/cmudict.cnts > cmudict/cmudict.mod
ngramprint --ARPA cmudict/cmudict.mod > cmudict/cmudict.arpa
phonetisaurus-arpa2wfst-omega --lm=cmudict/cmudict.arpa > cmudict/cmudict.fst
我用 phonetisaurus-g2p 尝试了 fst,如下所示:
phonetisaurus-g2p --model=cmudict/cmudict.fst --nbest=3 --input=HELLO --words
但它没有返回任何东西......感谢在这件事上的任何帮助。