对于我们构建的应用程序,我们使用一个简单的单词预测统计模型(如Google 自动完成)来指导搜索。
它使用从大量相关文本文档中收集的一系列 ngram。通过考虑前面的 N-1 个单词,它使用Katz back-off按概率降序建议 5 个最有可能的“下一个单词” 。
我们希望将其扩展到预测短语(多个单词)而不是单个单词。然而,当我们预测一个短语时,我们不希望显示它的前缀。
例如,考虑输入the cat
。
在这种情况下,我们希望做出类似的预测the cat in the hat
,但不是the cat in
& not the cat in the
。
假设:
我们无权访问过去的搜索统计信息
我们没有标记的文本数据(例如,我们不知道词性)
进行此类多词预测的典型方法是什么?我们已经尝试对较长的短语进行乘法和加法加权,但我们的权重是任意的,并且对我们的测试过度拟合。