python - 数据挖掘中映射数据的算法

Question

我需要抓取一些网页并从中提取内容。我打算选择一些特定的关键字并映射与它们有某种关系的数据。但我不知道，我怎么能做到这一点。有人可以建议我一些算法吗？

例如，我需要下载一些关于苹果的网页，并将苹果的相关数据映射到它并存储在数据库中，这样如果有人需要它的具体信息，我可以快速准确地提供它。

指出有用的库也会很有帮助。我打算用python来做。

score 1 · Accepted Answer

您可以尝试基于词频的算法 - 逆文档频率 TF-IDF，在 Java 中我会推荐Solr ...实际上您可以使用 Solr 并使用 python 访问它，请参见此处

score 1 · Accepted Answer

看看NLTK、Pattern或Orange模块。

作为开始，Toby Segaran 所著的“集体智慧编程：构建智能网络 2.0 应用程序”是一本值得阅读的好书。

2 回答 2