我正在构建一个简单的网络爬虫,我正在尝试根据之前是否见过链接来过滤链接。问题是链接可能是相同的,但带有正斜杠和参数。我也想过滤掉邮件。有没有已知的,直接的做法?我目前在 pHp 工作。
编辑:查看此内容后,我使用 Net_URL2.php 对 URL 进行规范化: 如何在 PHP 中应用 URL 规范化规则?
我正在构建一个简单的网络爬虫,我正在尝试根据之前是否见过链接来过滤链接。问题是链接可能是相同的,但带有正斜杠和参数。我也想过滤掉邮件。有没有已知的,直接的做法?我目前在 pHp 工作。
编辑:查看此内容后,我使用 Net_URL2.php 对 URL 进行规范化: 如何在 PHP 中应用 URL 规范化规则?