2

我需要抓取一些网页并从中提取内容。我打算选择一些特定的关键字并映射与它们有某种关系的数据。但我不知道,我怎么能做到这一点。有人可以建议我一些算法吗?

例如,我需要下载一些关于苹果的网页,并将苹果的相关数据映射到它并存储在数据库中,这样如果有人需要它的具体信息,我可以快速准确地提供它。

指出有用的库也会很有帮助。我打算用python来做。

4

2 回答 2

1

您可以尝试基于词频的算法 - 逆文档频率 TF-IDF,在 Java 中我会推荐Solr ...实际上您可以使用 Solr 并使用 python 访问它,请参见此处

于 2011-05-14T13:30:27.600 回答
1

看看NLTKPatternOrange模块。

作为开始,Toby Segaran 所著的“集体智慧编程:构建智能网络 2.0 应用程序”是一本值得阅读的好书。

于 2011-05-14T17:16:30.787 回答