1

我正在尝试使用pocketsphinx 创建一个僧伽罗语语音识别系统。我使用 SRILM 工具来创建语言模型。我创建语言模型的源文件在这里。我在 Windows 8.1 上使用 cygwin 来运行 SRILM 1.7.1。但是一旦我运行命令

ngram-count -vocab sinhalalexicon.txt -text sinhalacorpus.Train -order 3     -write sinhala.count -unk

我越来越

iconv: Invalid or incomplete multibyte or wide character
iconv: Invalid or incomplete multibyte or wide character

我在这里做错了什么?sinhalacorpus.Train 文件是使用 Notepad++ 手动创建的

4

1 回答 1

1

我找到了解决我的问题的方法。一旦我将语料库和词典文件转换为Unix 格式并将编码更改为没有 BOM 的 UTF-8,它就可以工作了。我使用 Notepad++ 进行更改。

于 2015-07-23T09:58:21.003 回答