在 Wikimedia commons 上获取大多数/所有图像的标题和描述的最佳方法是什么(我不需要图像本身)。我知道有 API,但我更愿意批量获取信息。
例如,当我查看https://commons.wikimedia.org/wiki/File:Schloss_Schönbühel_20180919.jpg时,我至少看到了德文和英文摘要。我假设这是以结构化方式在某个表格中。我查看了http://dumps.wikimedia.org/commonswiki/latest/commonswiki-latest-image.sql.gz,但这个文件似乎只包含基本的图像元数据(大小、日期……)
我知道Get descriptions from Wikimedia Commons,它解决了一个相关但不同的问题:depicts
是最近引入的结构化数据功能,答案解释了如何使用 Wikibase API 逐一获取数据,而不是在转储中批量获取。
- 更新 -
信息似乎包含在( https://dumps.wikimedia.org/commonswiki/latest/commonswiki-latest-pages-articles.xml.bz2
的转储之一)中,但必须从每个页面的半结构化文本中提取。