我使用 MediaWiki API 来查找 Wikipedia 文章的图像。但是,我也得到了所有无用的图标,例如当需要清理文章时使用的扫帚或标记要放置在知识共享许可下的内容的知识共享徽标。
有没有办法检测哪些图像是这样的图标,以便我可以删除它们?例如,有没有办法查询嵌入图像的大小(而不是原始图像的大小,即使是图标也可能很大),这样我就可以删除所有小的图像。无论如何,我对非常小的图像并不感兴趣。
我使用 MediaWiki API 来查找 Wikipedia 文章的图像。但是,我也得到了所有无用的图标,例如当需要清理文章时使用的扫帚或标记要放置在知识共享许可下的内容的知识共享徽标。
有没有办法检测哪些图像是这样的图标,以便我可以删除它们?例如,有没有办法查询嵌入图像的大小(而不是原始图像的大小,即使是图标也可能很大),这样我就可以删除所有小的图像。无论如何,我对非常小的图像并不感兴趣。
据我所知,没有。该信息根本不存储在数据库中,因此也无法通过 API 获得。
您可能可以做的一些事情包括:
加载文章的 HTML 标记(通过 APIaction=parse
或简单地通过 index.php with action=render
)并从中提取图像大小。
只需构建应排除的图像列表即可。您可以以编程方式执行此操作(例如,查找包含在Category:Wikipedia 维护模板及其所有子类别中的所有模板上使用的所有图像),或者在遇到任何不需要的图像时将其添加到排除列表中。