我有这个网络应用程序,用户(主要是英语学习者或儿童)可以在我的数据库中搜索一些现有的许可文章。它们可以按类别、标签以及每个标签的难度进行过滤。
因此,我正在考虑将 Wikipedia 中的文章添加到数据库中,并且能够不时更新我数据库中的文章,但我不确定什么是最好的方法。我的理解是我每次都需要下载压缩文件然后解压,这样我才能得到XML格式的文章。那么我可以根据标签将它们添加到数据库中吗?有没有办法让它自动更新?我读了这篇文章,但是关于数据转储,但不知道如何开始。
http://en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema