我从一个已爬网的内部站点返回结果。问题是由于在代码中使用了位置哈希,我得到了多个结果:
http://site.com/en/personal/refunds.html
http://site.com/en/personal/refunds.html#
http://site.com/en/personal/refunds.html#content
http://site.com/en/personal/refunds.html#section1
虽然它们可能都是相关的,但当它们是我的前四名结果时看起来并不好!有什么方法可以将它们视为一个结果?
看起来 # 和 #content 出现在大多数页面上,所以我可以应用一些规则来过滤掉它们。它们用于跳转到内容,另一个用于切换可访问性样式表。