python - 如何存储标记化结果以供进一步索引？

Question

我完全是一个初学者，现在尝试实现一个简单的search engine in python.

我tokenizer通过使用的函数做得很好NLTK。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。

这样做的常见方法是什么？我应该使用什么样的数据库？

score 1 · Accepted Answer

但是，对于一个简单的爱好/学习项目，SQLite足以存储索引。您需要一个包含 (term, document-id, frequency) 三元组的表来计算 tf 和一个存储 (term, df) 对的表，两者都带有术语索引；这足以计算 tf-idf。

1 回答 1