17

似乎获得 Bot 帐户批准的唯一方法是添加或编辑已经在 Wikimedia 上的信息。如果您尝试在没有机器人帐户的情况下使用某些 api 库下载任何图像,您会收到错误消息而不是图像。似乎他们阻止了任何不从浏览器进入的人?其他人有这方面的经验吗?我在这里错过了什么吗?

4

5 回答 5

20

我自己刚刚完成了这个,我觉得我应该分享:

http://www.mediawiki.org/wiki/API:Allimages

此 API 文档确实声明您可以查询图像:

http://en.wikipedia.org/w/api.php?action=query&list=allimages&aiprop=url&format=xml&ailimit=10&aifrom=Albert

使用 aiprop=url,您将获得您正在寻找的图像的 url。

于 2011-06-03T15:25:16.333 回答
5

试着确切地解释你想要做什么?你试过什么?你得到什么错误信息?你不是很清楚...

您尝试过哪些库?如果您不咄咄逼人,下载 WM 内容没有任何限制。没听说有什么限制。一些用户代理被禁止编辑以避免愚蠢的垃圾邮件,但实际上,我从未听说过下载限制。

如果您试图抓取大量图像,通过 Commons 下载它们,那么您做错了(tm)。如果您尝试获取一些图像,从 10 到 200 个,您应该能够在几行代码中编写一个体面的工具,前提是您遵守限制要求:当 API 告诉您放慢速度时,如果你不这样做,系统管理员很可能会把你踢出去。

如果您需要完整的图像转储,(我们说的是几个 TB),请尝试在wikitech-l上询问。当图像较少时,我们有可用的种子,现在它更复杂,但仍然可行

关于机器人帐户。你对系统的了解有多深?您需要一个机器人帐户来进行快速、无监督的编辑。机器人权限还开放了一些功能,例如增加查询大小。但请记住:机器人帐户?它只是一个增强的用户帐户。您是否尝试过使用经典帐户运行任何东西?

于 2009-09-24T09:56:01.363 回答
1

请注意,使用 LWP 曾经存在一个问题:它不合逻辑,它很实用,代理可以在已经拉伸的服务器上创建大量负载。代理用户可以遵循一些明智的策略来减少负载 - 请访问 www.mediawiki.org 或 en:Village pump - Technical

于 2011-09-01T18:51:57.330 回答
1

如果您需要 10 到 100 万个文件,使用 Magnus Manske 的工具来递归类别是一个不错的选择。http://tools.wmflabs.org/magnustools/can_i_haz_files.html生成一个 UNIX 命令列表,然后您可以在本地运行这些命令。

https://tools.wmflabs.org/wikilovesdownloads/是一个替代方案,其界面仅在德国,但足够简单

于 2015-04-28T14:35:04.220 回答
0

没有真正找到我正在寻找的答案.. 但这个页面很有趣:: http://www.makeuseof.com/tag/4-free-tools-for-taking-wikipedia-offline/

特别是#4 ..但似乎页面已关闭..项目死了?

于 2011-07-24T20:14:10.180 回答