问题标签 [wikimedia-dumps]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
526 浏览

python - 如何使用 Python 从类别和子类别中获取所有维基百科文章?

我正在尝试获取一个类别及其子类别的所有维基百科文章。

我目前已经发现了使用 wiki API 的问题的一小部分。例如,要查找Category:Geography,我使用 API 来查找 Geography 的类别:

我收到了 JSON 响应:

现在我的问题是如何利用它来制作 Python 脚本来运行和收集所有文章?我遇到了另一个问题,例如,如果我进入第一个类别:地理分支,它包含更多类别和子类别。我如何制作一个脚本,它会一直向下直到到达文章,将其保存到文本文件,然后移回类别并收集更多?

0 投票
1 回答
605 浏览

nlp - 从离线转储中提取属于某个类别的维基百科文章

我有不同语言的维基百科文章转储。我想用属于某个类别的文章(特别是Category:WikiProject_Biography)过滤它们

我可以得到很多类似的问题,例如:

  1. Wikipedia API 获取属于某个类别的文章
  2. 如何从 Wikipedia 中获取有关人员的所有文章?

但是,我想离线完成所有操作。那是使用转储,也适用于不同的语言。

我探索的其他东西是类别表和类别链接表。 MediaWiki_1.28.0_database_schema

0 投票
1 回答
136 浏览

wikipedia - 使用 API 获取维基百科页面标题看起来无穷无尽

我正在尝试使用 API 在命名空间中获取维基百科中的所有页面标题,如下所示:

我一直在请求这个 url 并检查响应是否包含 continue 标记。如果是,那么我使用相同的请求,但将 BASE_PAGE_TITLE 更改为响应中 apcontinue 属性中的值。
我的应用程序自 3 天以来一直在运行,检索到的数量超过 30M,而转储中的数量约为 13M。
任何想法?

0 投票
1 回答
70 浏览

mysql - 根据存储在单独表中的信息选择行

首先,我很抱歉标题过于模糊,但是我不熟悉此类问题的正确术语。

我正在尝试从维基词典(基于维基媒体维基的词典)中检索页面标题列表,其中页面必须归类为English_lemmas,但不得归类为English_phrasesEnglish_slangEnglish_%_forms(其中 % 是通配符)。

两个必要的表是page包含页面信息 ( page_id, page_title) 的表,以及categorylinks包含每个页面所属的类别的表。

的相关结构page是这样的:

的相关结构categorylinks是这样的:(我添加了换行符以便于阅读)

wherecategorylinks.cl_from是对类别的直接引用,page.page_id并且categorylinks.cl_to是类别的标题。

我需要选择raceandfire因为它们都被归类在 之下English_lemmas,但不是 racing,或者that's all folks除了都被归类在它们之下之外,English_lemmas它们还分别归类在English_%_formsand之下English_phrases,而不是psychédélique因为它没有归类在之下English_lemmas

因此理想的结果是

这是可以有效实现的吗?如果是这样,我怎样才能做到这一点?

我对 SQL(基本的 SELECT、UPDATE 等语句)有相当基本的了解,所以这样的事情远远超出了我的理解。

0 投票
1 回答
1072 浏览

wikipedia-api - 使用 Wikidata Toolkit 提取不同语言的相关文章

我正在尝试在 Wikidata 转储中提取与语言相关的文章。在互联网上搜索后,我发现有一个名为Wikidata Toolkit的工具可以帮助处理这些类型的数据。但是没有关于如何找到不同语言的相关文章的信息。例如,英语中的文章:“Dresden”与意大利语中 的文章: “Dresda”相关。我的意思是第二个是第一个的翻译版本。我尝试使用该工具包,但找不到任何解决方案。请写一些关于如何找到这篇相关文章的例子。

0 投票
1 回答
285 浏览

wikipedia-api - 从 Wiki Dump 中查找 Interlanguage 相关文章

查找 Wikipedia 英文文章的完整列表及其相关文章的其他语言(如法语和西班牙语)是一个问题,他们对此无能为力。您可以找到一些类似的问题,但其中大多数与维基百科以前的结构有关,而其他问题则没有正确答案。

我们可以从这里下载维基百科英语和西班牙语文章的转储文件: 英语维基西班牙语维基

在 enwiki 和 eswiki 中有一些名为 langlinks aka sitelinks 的数据,旨在查找与跨语言相关的文章。但不清楚如何使用它们来查找跨语相关文章(与每篇英文相关的西班牙语文章)。langlinks 模式如下:

英语中具有特殊“ll_from”字段的记录是否与西班牙语中具有类似“ll_from”字段的记录相关?如果是,为什么在这两个 langlinks 文件中找不到具有相似 ll_from 字段的记录?

同样,如何使用这些 langlinks 文件来查找与跨语言相关的文章?我不想使用其他工具,例如 Wikidata 工具包。

0 投票
0 回答
114 浏览

wikipedia - 如何获取给定 Wikidata JSON 转储的截止时间戳或 lastrevid?

我正在使用丰富了其他数据源的 Wikidata,我必须在我的开发图数据库中摄取整个Wikidata JSON 转储。

这很容易,一旦完成,我想通过查询 RecentChanges 和 LogEvents API 端点来检索在两个时间戳之间发生的更改/删除/创建(我每隔几分钟就会这样做)来更新我的副本 - 这相对容易也!

我无法理解的是......

如何获取给定 JSON 转储的截止时间戳?由于JSON 转储中不存在modified时间戳和字段,因此在哪里可用或如何解决。lastrevid

0 投票
3 回答
5566 浏览

wikipedia - 如何下载维基百科图像转储

我正在尝试制作维基百科的离线版本。但问题是我无法下载维基百科的图像转储。他们提供的只是带有元图像信息的 SQL,任何地方都没有执行图像。

转储链接

另外,我正在使用 wikimedia 在本地服务器上运行 wikipedia。任何帮助如何下载图像或是否有其他方法可以在本地下载图像/内容。

0 投票
1 回答
68 浏览

wikipedia - 如何获取按浏览量排名排序的最新所有维基百科文章标题?

这是维基百科文章标题最新列表的链接:

https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-all-titles-in-ns0.gz


但该列表按文章标题排序(从 0-9、AZ、...)。现在我想要按浏览量排名排序的列表。我怎样才能做到这一点?

0 投票
0 回答
76 浏览

wikipedia - 维基媒体图片说明

在 Wikimedia commons 上获取大多数/所有图像的标题和描述的最佳方法是什么(我不需要图像本身)。我知道有 API,但我更愿意批量获取信息。

例如,当我查看https://commons.wikimedia.org/wiki/File:Schloss_Schönbühel_20180919.jpg时,我至少看到了德文和英文摘要。我假设这是以结构化方式在某个表格中。我查看了http://dumps.wikimedia.org/commonswiki/latest/commonswiki-latest-image.sql.gz,但这个文件似乎只包含基本的图像元数据(大小、日期……)

我知道Get descriptions from Wikimedia Commons,它解决了一个相关但不同的问题:depicts是最近引入的结构化数据功能,答案解释了如何使用 Wikibase API 逐一获取数据,而不是在转储中批量获取。

- 更新 -

信息似乎包含在( https://dumps.wikimedia.org/commonswiki/latest/commonswiki-latest-pages-articles.xml.bz2的转储之一)中,但必须从每个页面的半结构化文本中提取。