我正在编写一个脚本,用于通过用户发送的 url 索引和下载整个网站
例如,当用户提交像http://example.com这样的域时,我将复制索引页面中的所有链接并下载其内部链接并从第一个开始......
我使用 curl 和正则表达式来下载和提取链接
但是,一些黄色网站正在制作假网址,例如,如果您访问http://example.com?page=12,它会提供一些指向http://example.com?page=12&id=10或http://example 的链接。 com?page=13等.. 这将形成一个循环,脚本无法完成网站下载
有什么方法可以检测到这类页面!?
ps:我认为谷歌和雅虎以及其他一些搜索引擎也面临这种问题,但他们的数据库很清楚,搜索时不会显示这些数据....