我需要获取 pinnaclesports.com 的 HTML 源代码。问题是它检测是否启用了cookies和JS,如果没有,它只返回一些页面说
本网站需要启用 JavaScript 和 Cookie。请更改您的浏览器设置或升级您的浏览器。
使用 cURL 时有什么方法可以欺骗 JS 支持?
编辑:我可以使用作为 Perl/Ruby 模块运行或用 PHP 编写的无头浏览器
我需要获取 pinnaclesports.com 的 HTML 源代码。问题是它检测是否启用了cookies和JS,如果没有,它只返回一些页面说
本网站需要启用 JavaScript 和 Cookie。请更改您的浏览器设置或升级您的浏览器。
使用 cURL 时有什么方法可以欺骗 JS 支持?
编辑:我可以使用作为 Perl/Ruby 模块运行或用 PHP 编写的无头浏览器
其他建议是设置用户代理,这个解决方案适用于谷歌组的解析器:
curl -L -v "https://groups.google.com/d/forum/<GROUP-NAME>" -A "Mozilla/5.0 (compatible; MSIE 7.01; Windows NT 5.0)"
我发现,如果您进行无 cookie 请求,则将返回一个页面,该页面使用 javascript 设置 cookie,即您使用 curl 获得的页面。
像这样打另一个 curl 电话
curl https://www.pinnaclesports.com/ --cookie "YPF8827340282Jdskjhfiw_928937459182JAX666=122.167.231.139"
即您必须进行 2 次调用 1) 减少 cookie 调用、读取和正则表达式以查找 cookiename。2) 设置 cokie 名称后进行第二次请求。这将解决您的问题。
或者
只使用 YQL
select * from html where url="https://www.pinnaclesports.com/"
将你的卷曲指向这里