问题标签 [scrapy-splash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
409 浏览

python - 不能用scrapy抓取一些网站

过去两年我一直在使用scrapy。现在有一些问题我无法找出这是什么问题。我正在抓取大约 80 个站点。所有这些都被抓取,但大约 6 个网站没有被抓取。我正在使用 RandomProxy 中间件、RotateUserAgent 中间件和飞溅。

所以,你能帮我弄清楚那是什么问题。然后我会搜索解决方案。无法爬取的网站是: http: //proza.ru/avtor/miliku

错误是:

0 投票
1 回答
1517 浏览

python - 如何使用带有旋转代理的scrapy-splash?

我只是通过使用以下作为请求来成功抓取 js 内容

如何在抓取动态内容时同时应用scrapyexcute和 端点以使用旋转代理服务?render.htmlrequest

0 投票
1 回答
498 浏览

python - 使用 scrapy 框架抓取 Monster.com

如何为 monster.com 创建一个爬虫来爬取所有页面。对于“下一页”链接,monster.com 调用了 javascript 函数,但 scrapy 无法识别 javascript正如你在图片中看到的

这是我的代码,它不适用于分页:

0 投票
3 回答
1037 浏览

python - 如何增加链接

我有一个链接:https ://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP1.htm

我想增加这样的链接:https ://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP2.htm

然后 3,4,5.... 我的代码是:

我想在变量 next_page_url 中增加它。

0 投票
0 回答
877 浏览

javascript - Scrapy-Splash 点击按钮加载 javascript 表格

我正在尝试使用 scrapy-splash 抓取动态表的值并将它们导出到 json/excel/something。

为了加载值,我必须单击几个按钮,但我找不到方法,不得不承认我对爬行知之甚少。

按钮的 HTML 如下所示:

每当你按下其中一个时,桌子上的内容就会改变,上面的数字也会改变。

我想一一点击它们,提取表格的值并将其保存到 excel/json 中。

一个小小的想法是:

我尝试通过使用 Chrome 中的检查工具重新加载网络,我在网络中看到当您单击按钮时它会发送一个 GET 请求,我尝试模拟该请求,但没有成功:

¿ 任何提示或想法来完成这项工作?

我也考虑过使用 selenium,但没有简单的方法来定位按钮,因为它们没有任何独特的 id 或名称。

另外,我相信用 selenium 抓取页面会更难,因为表中的页面数是未知的。

更具体地说,我要抓取的网络是 Malwr、“行为分析”字段和下表。

就像这个链接中的那个(随机链接,不是我要抓取的链接之一):https ://malwr.com/analysis/MmFlMTBkOTA1MGVjNGI5ZGE1M2E3YjQwYzAxYTNjZjc/

0 投票
0 回答
1035 浏览

python-2.7 - scrapy shell 启用 javascript

我正在尝试 在 scrapy shell 中获取https://www.wickedfire.com/的 response.body。但在 response.body 它告诉我:

我如何激活javascript?或者还有什么我可以做的吗?

先感谢您

更新: 我已经安装了 pip install scrapy-splash 并将这些命令放在 settings.py

它确实给了我一个错误:

我在那个错误之后把它作为评论。它通过了。

我的脚本是这样的......但它不起作用

这是我得到的错误:

我还使用本指南尝试了用scrapy shell 进行scrapy splash

我只想登录到页面并输入关键字进行搜索并获得结果。这是我的最终结果。

0 投票
1 回答
918 浏览

scrapy - 使用 Privoxy/Tor 的飞溅不起作用(本地主机冲突?)

Splash 不适用于 Privoxy/Tor。虽然

  • Privoxy/Tor 在浏览器中工作。
  • Splash 可与普通代理一起使用。yield SplashRequest(url, self.parse_func, args={'wait': 2.5, 'proxy': 'http://a_proxy_address:port', }).
  • Scrapy without Splash 通过 Privoxy 工作。yield scrapy.Request(url, callback=self.parse_func, meta={'proxy': 'http://127.0.0.1:8118'}))。

在脚本 Splash 中给出错误 502。

如果尝试在浏览器中打开 Splash page localhost:8050,它会给出错误页面: Privoxy was unable to socks5t-forward your request http://localhost:8050/ through localhost: SOCKS5 request failed

/etc/privoxy/配置:

我也尝试添加/etc/privoxy/config以下行,但没有帮助。

0 投票
3 回答
3342 浏览

python - Scrapy CrawlSpider + Splash:如何通过链接提取器跟踪链接?

我有以下部分工作的代码,

代码将只运行start_urls但不会遵循中指定的链接restricted_xpaths,如果我注释掉规则中的start_requests()方法和行process_request='start_requests',,它将按预期运行并遵循链接,当然没有js渲染。

我已经阅读了两个相关的问题,CrawlSpider with Splash 在第一个 URLCrawlSpider with Splash后卡住,并专门更改scrapy.Request()为方法,但这似乎不起作用。我的代码有什么问题?谢谢,SplashRequest()start_requests()

0 投票
1 回答
4144 浏览

python-3.x - scrapy + splash:不呈现整页 javascript 数据

我只是在用splash探索scrapy,我正在尝试从电子商务网站的 差距之一中抓取所有带有productid、名称和价格的产品(裤子)数据,但是当我看到时我没有看到加载的所有动态产品数据从splash web UI splash web UI(每个请求只加载16个项目 - 不知道为什么)我尝试了以下选项但没有运气

  • 将等待时间增加到 20 秒
  • 通过使用“ --disable-private-mode ”启动 docker
  • 通过使用 lua_script 进行页面滚动
  • 带有视图报告完整选项splash:set_viewport_full()

任何人都可以对这种行为有所了解吗?ps:我正在使用scrapy框架,我能够从render.html解析产品信息(商品名称、名称和价格)(但render.html只有16个商品信息)

0 投票
1 回答
804 浏览

scrapy - 清除 Scrapy Splash 日志

我在 docker 容器中使用了 scrapy splash,但图像磁盘使用量迅速增加,直到耗尽所有可用空间。如何删除日志文件以及如何限制启动日志的可用大小?

谢谢