2

我完全是一个初学者,现在尝试实现一个简单的search engine in python.

tokenizer通过使用的函数做得很好NLTK。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。

这样做的常见方法是什么?我应该使用什么样的数据库?

4

1 回答 1

1

Manning、Raghavan 和 Schütze的《信息检索导论》用几章来介绍索引的构建和存储;Baeza-Yates 和 Ribeiro-Neto 的《现代信息检索》也是如此

但是,对于一个简单的爱好/学习项目,SQLite足以存储索引。您需要一个包含 (term, document-id, frequency) 三元组的表来计算 tf 和一个存储 (term, df) 对的表,两者都带有术语索引;这足以计算 tf-idf。

于 2012-10-08T14:27:00.407 回答