我使用Wikipedia dumps extracts 来处理 Wikipedia 而不是 Wikipedia API,因为我想快速运行大量查询。
我想将维基百科页面连接到它们各自的维基数据页面。我的理解是iwlinks表包含这些信息。然而,虽然我已经能够为某些 Wikipedia 页面验证这一点,但我也能够验证其他人的情况并非如此。
例如,如果我们在 iwlinks 表中查找Metallica 的 Wikipedia 页面,我们会得到:
iwl_from, iwl_prefix, iwl_title
'18787', 'c', 'Special:Search/Metallica'
'18787', 'd', 'Q15920'
'18787', 'q', 'Special:Search/Metallica'
iwl_namespace 列中包含“d”的行包含有关在哪里可以找到Metallica Wikidata 页面的信息(即 Q15920)。
但是,如果我们使用以下命令查找Tom Selleck 的 Wikipedia 页面的 iwlinks 表:
SELECT * FROM iwlinks WHERE iwl_from = 277451;
我们得到:
iwl_from, iwl_prefix, iwl_title
'277451', 'commons', 'Tom_Selleck'
'277451', 'q', 'Special:Search/Tom_Selleck'
这些行都不包含关于他的 Wikidata 页面的信息。但是,他的 Wikipedia 页面包含指向他的 Wikidata 页面的“Wikidata item”链接,因此推测它必须存储在某个地方,但我找不到它。
我非常感谢您能想到的任何建议。
PS 如果您能指出正确的方向以找出许可证信息在维基百科中每个图像的存储位置,则可以加分。