我使用 Galago 成功索引了一个集合。我没有找到任何用于删除索引的停用词的参数。galago 会自动删除停用词吗?如果不是,我如何将停用词列表传递给 Galago,以及如何告诉 Galago 删除停用词?
问问题
418 次
1 回答
2
Galago,作为一个研究搜索引擎,尽量不做出无法收回的假设:默认情况下,索引是为词干和非词干术语构建的。
在索引期间,不会删除停用词,这会给您带来查询时的负担,但允许更改或调整训练集上的停用词列表。
如果你想删除停用词,它需要是一个查询时间步骤。如果您考虑一下,这就是任何现代搜索引擎都想要的,除非磁盘空间有限:如果没有停用词或更复杂的技术,“to be or not to be”的查询是无法回答的,但最好编写一些代码来删除停用词,除非它清空查询而不是无条件地删除它们。
Galago 通过 WordLists 类提供对“inquery”停用词列表的访问。
于 2015-11-15T14:40:11.990 回答