dump - 如何在维基百科转储中查找信息

Question

我会道歉，因为我对 SQL 很陌生。

我想避免爬取维基百科，所以我开始寻找其他方法。DBPedia 似乎是一个可能的解决方案，但在寻找从哪里开始一个小时后，我转身回到维基百科转储。

我的问题是如何在转储中找到我想要的东西？我需要哪些转储来查找特定信息？那里有很多垃圾场，它们有助于结构的不同部分。我是否需要全部下载才能获得 100 兆字节的数据？

我已经查看了 Mediawiki 数据库结构，但这并没有太大帮助。

有没有人做过类似的事情？我对 wiki 关于运动员等的表格特别感兴趣。是否有某种方法可以跟踪特定 wiki 转储中的哪些信息或链接相关信息？

编辑：我正在尝试获取所有运动的运动员名单，包括姓名、年龄、运动、奖牌......等等......

score 1 · Accepted Answer

维基百科（或其转储）并不真正包含您正在寻找的结构化信息。如果您想了解某个运动员获得了哪些奖牌，您可以尝试解析该运动员的文章以找到用于奖牌的模板。但是这样做很可能很困难，因为模板通常不是标准化的并且会随着时间而变化。

我认为 DBPedia 会更好地满足您的需求。

score -1 · Accepted Answer

有同样的问题......在我生命中的这个确切时刻。我花了一些时间 - 答案是 -> 没有页面可以让您预览数据转储，以便您可以在下载整个巨大的猛犸数据库集之前查看其中的一小部分 - 顺便说一下在任何普通的文本应用程序中解析都是一个大问题。如果您可以访问终端，请使用“cat”命令查看里面的内容 - 迄今为止最快的方式。

我知道我想找到什么——一个包含 pageId 和 Titles 的转储——没有关于哪个转储包含它的信息。所以我不得不搜索搜索搜索-> 什么都没有.. 然后我只需要下载 10-15 个不同类型的转储来打开它们，看看我是否可以使用它。

结果是转储：enwiki-latest-page.sql.gz 包含所有 pageId 和 eng 的标题。维基百科。这通常是一个有用的转储，因为您可以从 pageId 请求任何 wikipage 的所有文本和内容，并且您可以使用标题来了解此 pageId 是什么的 Id。

dump - 如何在维基百科转储中查找信息

2 回答 2

Related

Reference