我正在尝试从网站获取数据,一旦您提交表单,它就会重定向到加载页面,该页面设置为自动重定向到最终结果页面。问题是爬虫只获取加载页面的数据,并没有完全进入我真正需要的最终结果页面。有人可以告诉我如何实现吗?如果不可能,那么有什么替代方法可以做到这一点?
问问题
82 次
1 回答
0
如果您使用 curl,您可以尝试以下操作:
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
如果您仍然没有通过加载页面,则它可能不是 http 重定向。
在这种情况下,您将不得不手动解析目标位置。许多网站使用元刷新标签来加载此类页面。查找类似于以下内容的内容:
<meta http-equiv="refresh" content="5; url=http://example.com/" />
您可以使用正则表达式或任何用于 php 的 dom 解析库轻松解析上述内容。
另一种可能性是 javascript 重定向。查找window.location
源代码中包含的行。
于 2017-10-27T05:34:56.617 回答