我完全是一个初学者,现在尝试实现一个简单的search engine in python
.
我tokenizer
通过使用的函数做得很好NLTK
。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。
这样做的常见方法是什么?我应该使用什么样的数据库?
我完全是一个初学者,现在尝试实现一个简单的search engine in python
.
我tokenizer
通过使用的函数做得很好NLTK
。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。
这样做的常见方法是什么?我应该使用什么样的数据库?
Manning、Raghavan 和 Schütze的《信息检索导论》用几章来介绍索引的构建和存储;Baeza-Yates 和 Ribeiro-Neto 的《现代信息检索》也是如此
但是,对于一个简单的爱好/学习项目,SQLite足以存储索引。您需要一个包含 (term, document-id, frequency) 三元组的表来计算 tf 和一个存储 (term, df) 对的表,两者都带有术语索引;这足以计算 tf-idf。