2

我有这个网络应用程序,用户(主要是英语学习者或儿童)可以在我的数据库中搜索一些现有的许可文章。它们可以按类别、标签以及每个标签的难度进行过滤。

因此,我正在考虑将 Wikipedia 中的文章添加到数据库中,并且能够不时更新我数据库中的文章,但我不确定什么是最好的方法。我的理解是我每次都需要下载压缩文件然后解压,这样我才能得到XML格式的文章。那么我可以根据标签将它们添加到数据库中吗?有没有办法让它自动更新?我读了这篇文章,但是关于数据转储,但不知道如何开始。

http://en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema

4

1 回答 1

-2

或许仅仅爬取和索引维基百科会更好。然后,您可以在 Apache Solr 等系统中存储您关心的页面的搜索索引。如果您这样做,请务必对您的请求率保持礼貌

这避免了存储并且不需要努力更新内容。只有链接需要更新(可能频率要低得多)。

如果您不想过滤人们找到的内容,那么您可能只需注册Google 的搜索 API并节省爬虫的时间/精力......

于 2012-09-14T18:00:52.453 回答