问题标签 [splash-js-render]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 获取脚本标签内的内容
大家好,我正在尝试在脚本标签中获取内容。
http://www.teknosa.com/urunler/145051447/samsung-hm1500-bluetooth-kulaklik
这是网站。
这也是我想在里面输入的脚本标签。
我试过这个。
谢谢你的帮助。
python - 从 Splash 请求中读取 cookie
在使用 Splash 发出请求后,我正在尝试访问 cookie。以下是我构建请求的方式。
该脚本是 Splash 文档的精确副本。
所以我试图访问网页上设置的 cookie。当我不使用 Splash 时,下面的代码会按我的预期工作,但在使用 Splash 时不会。
使用 Splash 时返回:
2017-01-03 12:12:37 [蜘蛛] 调试:Cookie:无
当我不使用 Splash 时,此代码有效并返回网页提供的 cookie。
Splash 的文档将此代码显示为示例:
我不确定我是否理解正确,但我想说我应该能够以与不使用 Splash 时相同的方式访问 cookie。
中间件设置:
所以我的问题是:如何在使用 Splash 请求时访问 cookie?
web-scraping - 让 Splash、Scrapy 和 Scrapoxy 协同工作
我正在使用 Scrapy 编写网络抓取工具。我需要访问的一些站点需要我与它们交互,所以我使用 Splash 发出请求,这允许我这样做。这目前工作得很好。
为了防止我的爬虫被阻止,我希望请求通过一组代理服务器,所以我为此使用了 Scrapoxy。
我现在遇到的问题是,据我所知,请求以以下方式流动:-
Scrapy -> Scrapoxy -> Splash -> 目标网站
代替 :-
Scrapy -> Splash -> Scrapoxy -> 目标网站
有可能解决这个问题吗?
如果没有,是否可以使用任何其他无头浏览器或代理 IP 旋转器来解决此问题?
scrapy - 使用 Tor 的 Scrapy-Splash
我已成功使用此链接使用 Tor 运行 Scrapy:http: //pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-第 1 部分-mac/
但我无法使用 Tor 运行 Splash。
在 Scrapy-settings.py 中,我针对 http_proxy(8123 是 polipo 端口)指向 polipo:
在 polipo.config 中,我指向 tor(9150 是 tor 端口):
非常适合scrapy。在飞溅中它不起作用。但我不得不说 splash 或 docker 来使用 polipo 为 http_proxy 就像在 scrapy-settings.py 中一样。Docker 应该以某种方式使用 polipo,而 polipo 将直接指向 tor。我怎样才能做到这一点?
我跑飞溅:
在 etc/default/docker 中,我尝试使用 docker 直接指向 polipo:
但我无法成功。我究竟做错了什么?谢谢 :)
python - 如何通过代理使用 Splash(JS 渲染服务)
它是在 Scrapy 中自动配置的,但不是在 Curl 或普通请求中。
在 curl 中,我们可以在没有任何代理的情况下做到这一点:
如何使用代理来做到这一点?
我试过这个:
但我得到了:
python - Splash Lua 脚本附近预期错误
我需要在 Splash 上运行这个简单的 Lua 脚本:
但我得到了这个错误:
我应该如何编写 CSS 选择器字符串才能使该脚本正常工作?
scrapy - 如何强制scrapy-splash重试失败的项目?
我正在使用 scrapy-splash 从 Javascript 驱动的 IFRAMEd HTML 页面中提取信息。有时,我的启动 Javascript 函数由于某些浏览器条件而失败,并返回类似{"error": "NotSupportedError: DOM Exception 9"}
) 的错误消息。
在我的项目管道中,我删除了这些项目以保持我的结果干净:
不幸的是,我的错误项目率约为 40%。所以我想让scrapy-splash重试这些失败的url,而不是简单地删除项目。我怎样才能做到这一点?
python - Ubuntu 服务器上的 Scrapy Splash:得到了一个意外的关键字参数“编码”
我正在使用的 Scrapy Splash 在我的本地机器上工作得很好,但是当我在我的 Ubuntu 服务器上使用它时它会返回这个错误。这是为什么?是内存不足造成的吗?
更新
仅在使用 localhost 作为SPLASH_URL
linux - 飞溅停止并出现错误“unregister_netdevice: waiting for lo to be free”
我得到了那个错误,然后 Splash 将停止工作,我必须再次从头开始运行 docker。我听说它与docker有关。如何停止得到这个问题?
它与低RAM有关吗?我的 linux 服务器的规格是 512MB RAM 和 1vCPU。
scrapy - 如何确保 scrapy-splash 成功渲染了整个页面
当我通过使用 splash 渲染整个目标页面爬取整个网站时出现问题。某些页面不是随机成功的,所以我错误地获取了支持在渲染工作完成时出现的信息。这意味着我只是得到了一部分来自渲染结果的信息虽然我可以从其他渲染结果中获取全部信息。
这是我的代码: