我希望有人可以帮助我解决这个问题。我正在用 PHP 编写一个蜘蛛应用程序,它编译来自域的唯一 URL 列表,处理每个唯一 URL 上的 HTML 数据,然后生成有关这些页面的统计数据。
我的问题与知道我爬取的 URL 是否对我的列表真正唯一有关,更具体地说,当参数值不同时。
例如,以下是我的蜘蛛收集的两个 URL,它们在技术上是唯一的('replytocom' 的参数值不同),但也直接指向同一页面:
- http://eatocracy.cnn.com/2013/08/02/fda-sets-gluten-free-labeling-standards/?hpt=hp_bn11&replytocom=537479#respond
- http://eatocracy.cnn.com/2013/08/02/fda-sets-gluten-free-labeling-standards/?hpt=hp_bn11&replytocom=537470#respond
这些链接是您在博客上可以找到的那种链接,可以更轻松地回复特定评论,同时仍使用相同的回复表单。这就是我的问题所在:它们都是同一页面的 URL,这是我不想重新处理的数据(我真的只想要原始页面的 URL 进行处理)。对于在所有评论部分使用此类链接的博客,这对我的蜘蛛来说将是一个大数据问题。
我的问题是:有没有办法判断两个具有不同参数值的链接是否引用同一页面?让我想知道的是,例如,具有不同参数值的 YouTube 视频确实意味着不同的页面。除了自己打开页面并检查之外,是否有一种编程方式来判断两个 URL 是否正在加载同一个页面?
我真的很感激这方面的任何帮助!