-1

我正在寻找从零售商网站上的产品页面中提取主图像的选项,问题是产品页面中有多个图像(相关图像),我认为可行的一种方法是提取所有图像链接,下载其中的每一个并比较这些图像的大小,并将存储字节数最大的一个视为主要产品图像。

显然这是一种非常低效的方法,我们知道大多数零售商都使用某些电子商务平台,例如 magento、bigcommerce 等,主要的电子商务平台屈指可数,是否可以检测电子商务平台并利用每个平台提供的模板他们中的哪些人可以精确提取主要产品图像?

我知道这种方法永远不会完美,但我正在寻找一种算法,它的准确率大约在 80% 左右,可行吗?

4

3 回答 3

1

您是否有要从中提取图像的零售商列表?如果是这样,则手动浏览每个零售商的站点,查看其 HTML,并创建一些代码,以便成功地从该特定零售商处提取图像。如果不是,那么恐怕你不走运——你可以只抓取页面上最大的图像,或者使用其他启发式方法,但不能保证你抓取的是实际的产品图像。

创建某种通用实用程序的问题在于,每个电子商务平台都有自己的产品图像显示结构,并且每个站点都可以更改该结构。例如,仅仅因为 Magento通常以某种方式构建其图像,并不意味着您将始终以这种方式看到它们 - 这完全取决于当前应用的主题。

于 2015-02-01T16:00:55.837 回答
0

您可以使用简单的 dom html lib 来提取 html。就magento而言,产品缩略图是产品页面上“product-image”类中的img标签。您可以将其提取为大小合适的缩略图。

于 2015-01-31T20:03:59.750 回答
-1

如果您也知道零售商和图像,请通过脚本下载它并检查 foreach 循环语句中的大小并保存最大的那个。

谢谢

于 2015-02-02T08:20:21.530 回答