有没有人对如何根据从大量训练数据构建的 n-gram 语言模型实现对 Microsoft Word 的自定义有任何建议,该自定义将在用户键入时提供单词预测(自动完成)选项。
我在一个我们转录音频文件的办公室工作。所有的材料都是一个人说话的话语,我们已经完成了几千个转录,还有几千个需要做。我们已经尝试了 ASR 解决方案,但发现它实际上比从头开始转录更努力地更正自动转录的文本。
我认为我们可以提出一个仅使用语言模型组件的解决方案,并在转录员打字时使用它来帮助他们。用户可以选择完整输入一些单词,只输入其他单词的前几个字母,然后使用空格键快速滚动最可能完成的列表,这样他们就可以像音频一样快速转录正在播放。
很想听听任何人的想法——特别是关于如何最好地生成 LM 以及如何插入它。
我还看到了这篇关于结合主题相关概率的精彩论文http://noah.coccaro.com/publications/thesis.pdf