autocomplete - 使用 n-gram 语言模型为 MS Word 开发自定义自动完成插件

翻译自：https://stackoverflow.com/questions/18060030 2013-08-05T13:57:04.260

379 次

有没有人对如何根据从大量训练数据构建的 n-gram 语言模型实现对 Microsoft Word 的自定义有任何建议，该自定义将在用户键入时提供单词预测（自动完成）选项。

我在一个我们转录音频文件的办公室工作。所有的材料都是一个人说话的话语，我们已经完成了几千个转录，还有几千个需要做。我们已经尝试了 ASR 解决方案，但发现它实际上比从头开始转录更努力地更正自动转录的文本。

我认为我们可以提出一个仅使用语言模型组件的解决方案，并在转录员打字时使用它来帮助他们。用户可以选择完整输入一些单词，只输入其他单词的前几个字母，然后使用空格键快速滚动最可能完成的列表，这样他们就可以像音频一样快速转录正在播放。

很想听听任何人的想法——特别是关于如何最好地生成 LM 以及如何插入它。

我还看到了这篇关于结合主题相关概率的精彩论文http://noah.coccaro.com/publications/thesis.pdf

0 回答 0