问题标签 [scrapy-selenium]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
68 浏览

python - 抓取后保持浏览器窗口打开?

使用时scrapy-selenium,如何在抓取完成(或中止)后保持浏览器窗口打开?

0 投票
0 回答
90 浏览

python - Scrapy 中的硒。如何在scrapy内运行for循环?

我正在尝试使用硒自动化在谷歌反向图像搜索中搜索照片链接列表。我能够获得第一个链接谷歌它并获得谷歌搜索页面的 URL,但随后scrapy 停止。我如何通过for循环中的所有链接继续运行scrapy?我正在谈论的循环是for link in links:下面的代码:

0 投票
0 回答
51 浏览

python - 我正在尝试使用带有 selenium 的通用蜘蛛模板来抓取爬虫,但是当爬到产品详细信息页面时,它会给出错误的数据

块引用

我正在尝试提取href链接,然后我加入了url,然后我给了seleniumRequest和加入的url,我的代码可以工作,它会爬取数据,但结果它会产生相同的重复数据,爬取的数据将是重复的

看起来一切都很好,没有错误,但输出是重复的,数据也来自不同的产品链接

在此处输入图像描述 在此处输入图像描述

0 投票
0 回答
137 浏览

python - Scrapy/Selenium - driver.get_cookies() 返回错误的 cookie(对于与 start_urls 不同的 url)

我创建了一个抓取 cookie 的蜘蛛的简单示例。我需要使用 Selenium,因为我还需要 JS 设置的 cookie。

网址列表:

当我在方法中检查 cookie 时parse,我得到了一个奇怪的结果——对于第一个 url “archive.org”,只有“foxnews.com”cookie,对于“foxnews.com”只有“spiegel.de”cookie 等。

这是蜘蛛:

我使用Scrapy-Seleniumpython模块。

输出(日志除外):

你知道它为什么会这样吗?

0 投票
1 回答
221 浏览

selenium - 如何使用scrapy-selenium加载更多/显示更多分页

得到回应但什么也没刮!!

0 投票
2 回答
214 浏览

python - 带有javascript下一页的Scrapy和Selenium不起作用

我将刮掉下一页的所有职位,但它只刮掉第一页。该网址仅包含四页,每页包含 25 个项目,但我从未到达下一页。

0 投票
0 回答
106 浏览

python - 无法使用 UI(带头)运行 scrapy-selenium 库

我正在使用scrapy_selenium,但我不知道如何使用UI运行它我遵循了这个答案,但我收到以下错误:

settings.py

代码

0 投票
1 回答
94 浏览

javascript - 如何抓取不返回值的按钮

我正在尝试从网站https://tonaton.com/en/ads/ghana/electronics抓取。有一个“下一步”按钮,我想单击并抓取内容。问题是该按钮的xpath或css选择器在scrapy shell和splash中都没有返回任何值,我被卡住了。我不能进去刮我需要的东西。请问有什么帮助吗?这就是我能走多远,但我没有得到正确的结果。

进口scrapy 进口scrapy_selenium 从scrapy_selenium 进口SeleniumRequest

类 VisionSpider(scrapy.Spider): name = 'vision'

0 投票
1 回答
95 浏览

python - 我的 Scrapy 代码要么过滤太多,要么重复抓取相同的东西

我正在尝试让scrapy-selenium 导航一个url,同时在途中选择一些数据。问题是它似乎过滤掉了太多数据。我相信那里没有那么多数据。我的问题是我不知道在哪里申请dont_filter=True。这是我的代码

这是我运行代码时的结果:

我似乎弄错了,因为它过滤掉了太多,并且没有获取所有数据。我似乎也对元数据有问题,因为一旦进入下一页,我就会得到一个 KeyError。

0 投票
2 回答
380 浏览

python - Selector 类型的对象不是 JSON 可序列化的

我正在尝试抓取一个动态网站,我需要 Selenium。

只有当我点击该特定元素时,我想要抓取的链接才会打开。它们是由 jQuery 打开的,所以我唯一的选择是单击它们,因为没有 href 属性或任何可以给我 URL 的东西。

我的方法是这样的:

但它不会工作。

在我要单击该元素的行上,出现此错误:

我有点理解这个错误,但我不知道如何解决它。我不知何故需要将该对象从选择器转换为可点击按钮。

我在网上查了解决方案和文档,但我找不到任何有用的东西。

任何人都可以帮助我更好地理解这个错误,我应该如何解决它?

谢谢。