我正在尝试从 url 获取最相关的图像。我想获取最接近页面标题“文本”的图像。或者换一种说法。我想根据图像与标题“文本”的距离为图像打分。然后获取得分最高的图像。
标题“文本”可以在标题元素中
<h1>title text</h1>,<h2>title text<h2>,etc
或者它可能与 alt 属性匹配
<img alt='title text'> tags.
或者它也可能在任何其他元素中,例如
<p> , <span> , <div> etc
例如:
假设页面的标题如下:
<title>White Gold Round Diamond Wedding Band: Jewelry: Amazon.com</title>
在页面的正文中,我们有类似的内容:
<h1>White Gold Round Diamond Wedding Band</h1>
可以说最接近上述标签的元素位于 div 内,如下所示:
<div class='abc'>
<img src='efg' />
</div>
那么上面的图像应该得到最高分。
相反,如果 img 的 alt 属性与 title 匹配,则该图像应获得最高分。
提前致谢。