-2

如果我查看 Amazon Button 以将项目添加到他们网站上的列表中 - 你可以在这里看到它:

http://www.amazon.co.uk/wishlist/get-button

它是如何工作的?我很确定它会以某种方式刮掉页面,但它似乎可以获取每张图片,无论是 flash 图像、jpg 还是其他任何东西,即使相关网站使用相对 img src 而不是绝对完整网站 url

下面的示例页面,所有显示的图像都是 jpg,这很酷,但所有 img src 都是相对含义,在它们之前没有“http://blah.com”

http://gadgets.guardianoffers.co.uk/p-788-Casio-Solar-Powered-Edifice-Watch.html

除了解析 html 源代码之外,还有更好的方法来获取图像吗?

或者如果他们没有立即受到打击,他们是否只是做了一百万次假设?

4

1 回答 1

0

它看起来像是解析页面的 HTML 并查找语义上标识为主要图像、名称和价格的内容。例如,如果您查看一个没有任何电子商务产品的页面,例如:http ://www.theglobeandmail.com/ ,它将页面 h1 元素作为产品名称和主图像(首页故事图像) 作为产品图片。

所以他们在幕后做了很多猜测。使用 HTML 5 语义标记,您可以为此类事物建立标准,但除非每个人都在使用它,否则您只是在进行有根据的猜测。

于 2012-08-24T16:43:56.617 回答