json - 获取 Wikimedia Commons 图片的深层链接

Question

我想从 Wikimedia Commons 图片中获取全文 URL。例如，我想从File:Trittin, Jürgen-0126.jpg获取 https://upload.wikimedia.org/wikipedia/commons/6/69/Trittin%2C_J%C3%BCrgen-0126.jpg。这是html源代码：

<div class="fullMedia"><a href="https://upload.wikimedia.org/wikipedia/commons/6/69/Trittin%2C_J%C3%BCrgen-0126.jpg" class="internal" title="Trittin, Jürgen-0126.jpg">Original file</a> &#8206;<span class="fileInfo">(1,996 × 3,000 pixels, file size: 2.2 MB, MIME type: <span class="mime-type">image/jpeg</span>)</span>
</div>

因为我正在做很多查询，所以我更喜欢轻量级的 unix 工具解决方案，而不是像 BeautifulSoup 这样的东西。还有一个 API（commons.wikimedia.org/w/api.php?action=query&prop=imageinfo&titles=File:Trittin,_J%C3%BCrgen-0126.jpg&iiprop=url），但对我来说是一个简单的 bash 脚本编写器 JSON是强加的！

如果你能帮助我，我很高兴。

score 1 · Accepted Answer

1

在 URL 中替换

File:

和

Special:FilePath/

于 2017-08-24T18:08:14.583 回答

score 0 · Accepted Answer

我使用 curl 和 grep 的技巧：

 curl -s https://commons.wikimedia.org/wiki/File:Trittin,_J%C3%BCrgen-0126.jpg | grep fullImageLink | grep -o  'http[^ ]*jpg'

score 0 · Accepted Answer

正如其他人所说，您应该使用jq。

curl --silent 'https://commons.wikimedia.org/w/api.php?format=json&formatversion=2&action=query&prop=imageinfo&titles=File:Trittin,_J%C3%BCrgen-0126.jpg&iiprop=url' | jq --raw-output '.query.pages[0].imageinfo[0].url'

json - 获取 Wikimedia Commons 图片的深层链接

3 回答 3

Related

Reference