1

我正在构建一个简单的网络爬虫,我正在尝试根据之前是否见过链接来过滤链接。问题是链接可能是相同的,但带有正斜杠和参数。我也想过滤掉邮件。有没有已知的,直接的做法?我目前在 pHp 工作。

编辑:查看此内容后,我使用 Net_URL2.php 对 URL 进行规范化: 如何在 PHP 中应用 URL 规范化规则?

4

1 回答 1

1

简短的回答是否定的,没有直接的方法可以做到这一点。阅读这篇关于 URL 规范化的文章,找出难以实现的一些原因。

于 2013-07-15T19:03:30.840 回答