问题标签 [wikimedia-dumps]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 Python 从类别和子类别中获取所有维基百科文章?
我正在尝试获取一个类别及其子类别的所有维基百科文章。
我目前已经发现了使用 wiki API 的问题的一小部分。例如,要查找Category:Geography,我使用 API 来查找 Geography 的类别:
我收到了 JSON 响应:
现在我的问题是如何利用它来制作 Python 脚本来运行和收集所有文章?我遇到了另一个问题,例如,如果我进入第一个类别:地理分支,它包含更多类别和子类别。我如何制作一个脚本,它会一直向下直到到达文章,将其保存到文本文件,然后移回类别并收集更多?
nlp - 从离线转储中提取属于某个类别的维基百科文章
我有不同语言的维基百科文章转储。我想用属于某个类别的文章(特别是Category:WikiProject_Biography)过滤它们
我可以得到很多类似的问题,例如:
但是,我想离线完成所有操作。那是使用转储,也适用于不同的语言。
我探索的其他东西是类别表和类别链接表。 MediaWiki_1.28.0_database_schema
wikipedia - 使用 API 获取维基百科页面标题看起来无穷无尽
我正在尝试使用 API 在命名空间中获取维基百科中的所有页面标题,如下所示:
我一直在请求这个 url 并检查响应是否包含 continue 标记。如果是,那么我使用相同的请求,但将 BASE_PAGE_TITLE 更改为响应中 apcontinue 属性中的值。
我的应用程序自 3 天以来一直在运行,检索到的数量超过 30M,而转储中的数量约为 13M。
任何想法?
mysql - 根据存储在单独表中的信息选择行
首先,我很抱歉标题过于模糊,但是我不熟悉此类问题的正确术语。
我正在尝试从维基词典(基于维基媒体维基的词典)中检索页面标题列表,其中页面必须归类为English_lemmas
,但不得归类为English_phrases
、English_slang
和English_%_forms
(其中 % 是通配符)。
两个必要的表是page
包含页面信息 ( page_id
, page_title
) 的表,以及categorylinks
包含每个页面所属的类别的表。
的相关结构page
是这样的:
的相关结构categorylinks
是这样的:(我添加了换行符以便于阅读)
wherecategorylinks.cl_from
是对类别的直接引用,page.page_id
并且categorylinks.cl_to
是类别的标题。
我需要选择race
andfire
因为它们都被归类在 之下English_lemmas
,但不是 racing
,或者that's all folks
除了都被归类在它们之下之外,English_lemmas
它们还分别归类在English_%_forms
and之下English_phrases
,而不是psychédélique
因为它没有归类在之下English_lemmas
。
因此理想的结果是
这是可以有效实现的吗?如果是这样,我怎样才能做到这一点?
我对 SQL(基本的 SELECT、UPDATE 等语句)有相当基本的了解,所以这样的事情远远超出了我的理解。
wikipedia-api - 使用 Wikidata Toolkit 提取不同语言的相关文章
我正在尝试在 Wikidata 转储中提取与语言相关的文章。在互联网上搜索后,我发现有一个名为Wikidata Toolkit的工具可以帮助处理这些类型的数据。但是没有关于如何找到不同语言的相关文章的信息。例如,英语中的文章:“Dresden”与意大利语中 的文章: “Dresda”相关。我的意思是第二个是第一个的翻译版本。我尝试使用该工具包,但找不到任何解决方案。请写一些关于如何找到这篇相关文章的例子。
wikipedia-api - 从 Wiki Dump 中查找 Interlanguage 相关文章
查找 Wikipedia 英文文章的完整列表及其相关文章的其他语言(如法语和西班牙语)是一个问题,他们对此无能为力。您可以找到一些类似的问题,但其中大多数与维基百科以前的结构有关,而其他问题则没有正确答案。
我们可以从这里下载维基百科英语和西班牙语文章的转储文件: 英语维基和西班牙语维基。
在 enwiki 和 eswiki 中有一些名为 langlinks aka sitelinks 的数据,旨在查找与跨语言相关的文章。但不清楚如何使用它们来查找跨语相关文章(与每篇英文相关的西班牙语文章)。langlinks 模式如下:
英语中具有特殊“ll_from”字段的记录是否与西班牙语中具有类似“ll_from”字段的记录相关?如果是,为什么在这两个 langlinks 文件中找不到具有相似 ll_from 字段的记录?
同样,如何使用这些 langlinks 文件来查找与跨语言相关的文章?我不想使用其他工具,例如 Wikidata 工具包。
wikipedia - 如何获取给定 Wikidata JSON 转储的截止时间戳或 lastrevid?
我正在使用丰富了其他数据源的 Wikidata,我必须在我的开发图数据库中摄取整个Wikidata JSON 转储。
这很容易,一旦完成,我想通过查询 RecentChanges 和 LogEvents API 端点来检索在两个时间戳之间发生的更改/删除/创建(我每隔几分钟就会这样做)来更新我的副本 - 这相对容易也!
我无法理解的是......
如何获取给定 JSON 转储的截止时间戳?由于JSON 转储中不存在modified
时间戳和字段,因此在哪里可用或如何解决。lastrevid
wikipedia - 如何下载维基百科图像转储
我正在尝试制作维基百科的离线版本。但问题是我无法下载维基百科的图像转储。他们提供的只是带有元图像信息的 SQL,任何地方都没有执行图像。
另外,我正在使用 wikimedia 在本地服务器上运行 wikipedia。任何帮助如何下载图像或是否有其他方法可以在本地下载图像/内容。
wikipedia - 如何获取按浏览量排名排序的最新所有维基百科文章标题?
这是维基百科文章标题最新列表的链接:
https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-all-titles-in-ns0.gz
但该列表按文章标题排序(从 0-9、AZ、...)。现在我想要按浏览量排名排序的列表。我怎样才能做到这一点?
wikipedia - 维基媒体图片说明
在 Wikimedia commons 上获取大多数/所有图像的标题和描述的最佳方法是什么(我不需要图像本身)。我知道有 API,但我更愿意批量获取信息。
例如,当我查看https://commons.wikimedia.org/wiki/File:Schloss_Schönbühel_20180919.jpg时,我至少看到了德文和英文摘要。我假设这是以结构化方式在某个表格中。我查看了http://dumps.wikimedia.org/commonswiki/latest/commonswiki-latest-image.sql.gz,但这个文件似乎只包含基本的图像元数据(大小、日期……)
我知道Get descriptions from Wikimedia Commons,它解决了一个相关但不同的问题:depicts
是最近引入的结构化数据功能,答案解释了如何使用 Wikibase API 逐一获取数据,而不是在转储中批量获取。
- 更新 -
信息似乎包含在( https://dumps.wikimedia.org/commonswiki/latest/commonswiki-latest-pages-articles.xml.bz2
的转储之一)中,但必须从每个页面的半结构化文本中提取。