我会道歉,因为我对 SQL 很陌生。
我想避免爬取维基百科,所以我开始寻找其他方法。DBPedia 似乎是一个可能的解决方案,但在寻找从哪里开始一个小时后,我转身回到维基百科转储。
我的问题是如何在转储中找到我想要的东西?我需要哪些转储来查找特定信息?那里有很多垃圾场,它们有助于结构的不同部分。我是否需要全部下载才能获得 100 兆字节的数据?
我已经查看了 Mediawiki 数据库结构,但这并没有太大帮助。
有没有人做过类似的事情?我对 wiki 关于运动员等的表格特别感兴趣。是否有某种方法可以跟踪特定 wiki 转储中的哪些信息或链接相关信息?
编辑:我正在尝试获取所有运动的运动员名单,包括姓名、年龄、运动、奖牌......等等......