0

我开发了一个图像抓取工具,可以从远程站点抓取特定图像,并在粘贴到文本字段时显示它们。该逻辑包括查找以 .jpg .jpeg 结尾的图像。等。

我遇到了一个问题,很多网站将通过 javascript 生成图像,或者没有将图像扩展名作为显示图像的一部分。示例网站如

www.express.com 和 www.underarmour.com 有这个问题等等。

我可以使用什么功能从设置的 URL 中查找图像,然后相应地显示它们没有文件扩展名?

再次感谢。

4

2 回答 2

1

除非 url 来自<img src="...">,否则无法判断您将从特定 url 中得到什么。http://example.com/index.html实际上很可能是一个提供 zip 文件的 PHP 脚本。

在您实际点击 url 并检查标题 + 下载数据之前,不可能可靠地告诉您 url 会给您什么。

于 2012-08-01T19:50:02.613 回答
1

我想,你有两个选择:

  1. 生成一些启发式方法,判断 URL 是否可以是图像(例如/images/在 URL 中查找一部分)

  2. 加载每个 URL 并检查返回的数据是否为图像(例如使用getimagesize()

第二个版本更通用,但在带宽和资源方面都相当繁重。

于 2012-08-01T19:51:07.600 回答