我想从我的输入文件中构建一个包含每行 n-gram 的索引,如下所示:
Segeln bei den Olympischen Sommerspielen
Erdmond
Olympische Spiele
Turnen bei den Olympischen Sommerspielen
Tennis bei den Olympischen Sommerspielen
Geschichte der Astronomie
我需要 n-gram,因为我想在索引中搜索,但我必须假设搜索词中有很多输入错误。例如,如果我使用术语“schichte astrologie”进行搜索,我想找到“Geschichte der Astronomie”。如果它能给我一个可能的最佳匹配列表会更好,比如说最好的 10 场匹配,不管它们有多糟糕。如果有比使用 n-gram 更好的方法来实现这一点,或者您有提示如何创建索引以及如何查询它,我希望您能指出正确的方向。我很高兴有一个例子可以帮助我理解如何去做。我目前使用 lucene 4.3.1。我宁愿在 java 中实现它,而不是在命令行上构建索引。