html - 如何下载维基百科文章并存储在数据库中

Question

我有这个网络应用程序，用户（主要是英语学习者或儿童）可以在我的数据库中搜索一些现有的许可文章。它们可以按类别、标签以及每个标签的难度进行过滤。

因此，我正在考虑将 Wikipedia 中的文章添加到数据库中，并且能够不时更新我数据库中的文章，但我不确定什么是最好的方法。我的理解是我每次都需要下载压缩文件然后解压，这样我才能得到XML格式的文章。那么我可以根据标签将它们添加到数据库中吗？有没有办法让它自动更新？我读了这篇文章，但是关于数据转储，但不知道如何开始。

http://en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema

score -2 · Accepted Answer

或许仅仅爬取和索引维基百科会更好。然后，您可以在 Apache Solr 等系统中存储您关心的页面的搜索索引。如果您这样做，请务必对您的请求率保持礼貌，

这避免了存储并且不需要努力更新内容。只有链接需要更新（可能频率要低得多）。

如果您不想过滤人们找到的内容，那么您可能只需注册Google 的搜索 API并节省爬虫的时间/精力......

html - 如何下载维基百科文章并存储在数据库中

1 回答 1

Related

Reference