-1

我正在尝试从 url 获取最相关的图像。我想获取最接近页面标题“文本”的图像。或者换一种说法。我想根据图像与标题“文本”的距离为图像打分。然后获取得分最高的图像。

标题“文本”可以在标题元素中

<h1>title text</h1>,<h2>title text<h2>,etc

或者它可能与 alt 属性匹配

<img alt='title text'> tags.

或者它也可能在任何其他元素中,例如

<p> , <span> , <div> etc

例如:

假设页面的标题如下:

<title>White Gold Round Diamond Wedding Band: Jewelry: Amazon.com</title>

在页面的正文中,我们有类似的内容:

<h1>White Gold Round Diamond Wedding Band</h1>

可以说最接近上述标签的元素位于 div 内,如下所示:

<div class='abc'>
    <img src='efg' />
</div>

那么上面的图像应该得到最高分。

相反,如果 img 的 alt 属性与 title 匹配,则该图像应获得最高分。

提前致谢。

4

1 回答 1

3

我不认为这是一个好的解决方案。og:image如果已设置,您可以尝试获取而不是这个。

另一种解决方案是获取所有图像XPath并仅获取具有指定大小的图像,例如:大于150px X 150px和有限width/height的比率,例如 from0.52。如果有超过 1 张图片,您可以让用户使用简单的图片滑块选择其中一张,就像 Facebook 的分享弹出窗口一样。

您也可以使用Embed.LY API 之类的东西,如果您想获取一些产品图像,它可以非常准确地工作。

如果您正在彻底使用亚马逊和/或 Ebay 优惠,那么您可以尝试亚马逊的产品广告 APIEbay 的查找 API以获得最佳效果。您只需从给定的 URL 中提取商品 ID 并发送 API 请求即可获取该商品的详细信息,包括不同大小的图像。

最后,最好的解决方案可能是结合每种方法并像多合一一样使用它们。

于 2012-10-17T11:07:07.757 回答