对于我的论文工作,我需要从不同的基于文章的网站收集数据。当我file_get_contents()
从我的 localhost 脚本在其他站点上使用它时,它在某些站点的前几次运行良好。但是,某些站点会在 5-10 次尝试后显示验证码身份验证提示来验证未经授权的机器人访问,因此我的脚本无法正常运行。
我只想通过使用file_get_contents()
来自我的本地主机脚本的其他站点来获取完整的页面内容。我也尝试设置用户代理,但没有任何进展。我正在使用它来设置用户代理:
<?php ini_set("user_agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36"); ?>
file_get_contents()
当我从本地主机大量使用从远程网页获取数据时,如何避免这种类型的验证码身份验证?