问题标签 [scrapy-splash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1317 浏览

python - scrapy.FormRequest.from_response VS。SplashFormRequest.from_response

我正在尝试以与仅使用scrapy 完全相同的方式使用scrapy splash 登录。我查看了文档Doc,它说“SplashFormRequest.from_response 也受支持,并且按照scrapy文档中的描述工作”但是,简单地更改一行代码并按照启动文档中的描述更改设置不会带来任何结果。我做错了什么?代码:

添加到设置:

错误日志:

0 投票
1 回答
900 浏览

scrapy - scrapy_splash.SplashRequest在scrapyd调度时不执行回调函数

当 SplashRequest 的回调由 scrapyd 执行时,我确实遇到了一些奇怪的行为(据我所知)。

Scrapy 源代码

内部 Scrapy Crawler 的日志

回调解析函数在启动时执行

记录scrapyd

当使用 scrapyd 启动同一个蜘蛛时,它会在 SplashRequest 之后直接返回:

有人知道这个问题或可以帮助我找到我的错误吗?

0 投票
0 回答
170 浏览

scrapy - Scrapy Shell Splash 无法正确渲染

我尝试在scrapy shell中呈现带有splash的javascript页面。我想渲染谷歌的搜索结果:scrapy shell ' http://localhost:8050/render.html?url=https://www.google.com.tr/#q=christian+omlin+email&timeout=10&wait=0.5 '

但外壳返回“www.google.com”,而不是问题参数(christian omlin email),它只是删除它们。

我看谷歌有 https,也许 8050 不适合它,或者 url 的引号是错误的。为什么会发生?

0 投票
1 回答
1018 浏览

web-scraping - 让 Splash、Scrapy 和 Scrapoxy 协同工作

我正在使用 Scrapy 编写网络抓取工具。我需要访问的一些站点需要我与它们交互,所以我使用 Splash 发出请求,这允许我这样做。这目前工作得很好。

为了防止我的爬虫被阻止,我希望请求通过一组代理服务器,所以我为此使用了 Scrapoxy。

我现在遇到的问题是,据我所知,请求以以下方式流动:-

Scrapy -> Scrapoxy -> Splash -> 目标网站

代替 :-

Scrapy -> Splash -> Scrapoxy -> 目标网站

有可能解决这个问题吗?
如果没有,是否可以使用任何其他无头浏览器或代理 IP 旋转器来解决此问题?

0 投票
2 回答
428 浏览

scrapy - 使用代理时 Splash 不执行 Javascript

我正在使用 scrapy_splash 来抓取需要 js 来检索正确内容的页面。

当我在没有代理设置的情况下使用 SplashRequest 时一切都很好,但是当我输入代理设置时,javascript 不会呈现,给我 prejavascript html 内容,它没有我需要的数据。

有谁知道如何解决这个问题?我确信代理 ip 没有被列入黑名单。

0 投票
1 回答
1645 浏览

scrapy - 使用 Tor 的 Scrapy-Splash

我已成功使用此链接使用 Tor 运行 Scrapy:http: //pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-第 1 部分-mac/

但我无法使用 Tor 运行 Splash。

在 Scrapy-settings.py 中,我针对 http_proxy(8123 是 polipo 端口)指向 polipo:

在 polipo.config 中,我指向 tor(9150 是 tor 端口):

非常适合scrapy。在飞溅中它不起作用。但我不得不说 splash 或 docker 来使用 polipo 为 http_proxy 就像在 scrapy-settings.py 中一样。Docker 应该以某种方式使用 polipo,而 polipo 将直接指向 tor。我怎样才能做到这一点?

我跑飞溅:

在 etc/default/docker 中,我尝试使用 docker 直接指向 polipo:

但我无法成功。我究竟做错了什么?谢谢 :)

0 投票
1 回答
911 浏览

scrapy - Scrapy-Splash 运行 Tor 代理

我尝试构建启动的代理设置。这里我将 Tor 或 Polipo 端口地址分配给set_proxy,但它不起作用。我收到 504 错误:

在 polipo.config(9150 是 Tor 端口)中:

在 settings.py 中:

我该如何解决这个问题,或者是否有更简单的方法可以在 Tor 中使用 splash?

0 投票
1 回答
1172 浏览

python - 如何通过代理使用 Splash(JS 渲染服务)

它是在 Scrapy 中自动配置的,但不是在 Curl 或普通请求中。

在 curl 中,我们可以在没有任何代理的情况下做到这一点:

如何使用代理来做到这一点?

我试过这个:

但我得到了:

0 投票
1 回答
139 浏览

python - 为 Splash 浏览器设置地理位置(Scrapy/Python)

我正在尝试设置浏览器的地理位置,以便当我访问网站时,它会识别我的位置,因为除非我设置了地理位置,否则页面不会加载。有谁知道如何在splash-scrapy中设置它?我在网上看了一圈,但似乎以前没有人问过这个问题。

谢谢

0 投票
1 回答
1422 浏览

python - Splash Lua 脚本附近预期错误

我需要在 Splash 上运行这个简单的 Lua 脚本:

但我得到了这个错误:

我应该如何编写 CSS 选择器字符串才能使该脚本正常工作?