6

我需要获取 pinnaclesports.com 的 HTML 源代码。问题是它检测是否启用了cookies和JS,如果没有,它只返回一些页面说

本网站需要启用 JavaScript 和 Cookie。请更改您的浏览器设置或升级您的浏览器。

使用 cURL 时有什么方法可以欺骗 JS 支持?

编辑:我可以使用作为 Perl/Ruby 模块运行或用 PHP 编写的无头浏览器

4

2 回答 2

4

其他建议是设置用户代理,这个解决方案适用于谷歌组的解析器:

curl -L -v "https://groups.google.com/d/forum/<GROUP-NAME>" -A "Mozilla/5.0 (compatible;  MSIE 7.01; Windows NT 5.0)"
于 2014-07-30T12:19:22.473 回答
3

我发现,如果您进行无 cookie 请求,则将返回一个页面,该页面使用 javascript 设置 cookie,即您使用 curl 获得的页面。

像这样打另一个 curl 电话

curl https://www.pinnaclesports.com/ --cookie "YPF8827340282Jdskjhfiw_928937459182JAX666=122.167.231.139"

即您必须进行 2 次调用 1) 减少 cookie 调用、读取和正则表达式以查找 cookiename。2) 设置 cokie 名称后进行第二次请求。这将解决您的问题。

或者
只使用 YQL

select * from html where url="https://www.pinnaclesports.com/" 

将你的卷曲指向这里

于 2012-09-06T18:50:37.423 回答