问题标签 [scrapy-selenium]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

24 问题

0 投票

1 回答

68 浏览

python - 抓取后保持浏览器窗口打开？

使用时scrapy-selenium，如何在抓取完成（或中止）后保持浏览器窗口打开？

python scrapy-selenium

2021-04-07T18:46:27.343

0 投票

0 回答

90 浏览

python - Scrapy 中的硒。如何在scrapy内运行for循环？

我正在尝试使用硒自动化在谷歌反向图像搜索中搜索照片链接列表。我能够获得第一个链接谷歌它并获得谷歌搜索页面的 URL，但随后scrapy 停止。我如何通过for循环中的所有链接继续运行scrapy？我正在谈论的循环是for link in links:下面的代码：

2021-04-17T15:19:23.397

0 投票

0 回答

51 浏览

python - 我正在尝试使用带有 selenium 的通用蜘蛛模板来抓取爬虫，但是当爬到产品详细信息页面时，它会给出错误的数据

块引用

我正在尝试提取href链接，然后我加入了url，然后我给了seleniumRequest和加入的url，我的代码可以工作，它会爬取数据，但结果它会产生相同的重复数据，爬取的数据将是重复的

看起来一切都很好，没有错误，但输出是重复的，数据也来自不同的产品链接

在此处输入图像描述

python selenium scrapy scrapy-selenium

2021-05-10T03:28:34.843

0 投票

0 回答

137 浏览

python - Scrapy/Selenium - driver.get_cookies() 返回错误的 cookie（对于与 start_urls 不同的 url）

我创建了一个抓取 cookie 的蜘蛛的简单示例。我需要使用 Selenium，因为我还需要 JS 设置的 cookie。

网址列表：

当我在方法中检查 cookie 时parse，我得到了一个奇怪的结果——对于第一个 url “archive.org”，只有“foxnews.com”cookie，对于“foxnews.com”只有“spiegel.de”cookie 等。

这是蜘蛛：

我使用Scrapy-Seleniumpython模块。

输出（日志除外）：

你知道它为什么会这样吗？

python selenium cookies scrapy scrapy-selenium

2021-06-05T19:37:40.723

0 投票

1 回答

221 浏览

selenium - 如何使用scrapy-selenium加载更多/显示更多分页

得到回应但什么也没刮！！

selenium scrapy selenium-chromedriver scrapy-selenium

2021-06-20T11:31:15.350

0 投票

2 回答

214 浏览

python - 带有javascript下一页的Scrapy和Selenium不起作用

我将刮掉下一页的所有职位，但它只刮掉第一页。该网址仅包含四页，每页包含 25 个项目，但我从未到达下一页。

python scrapy-selenium

2021-07-21T22:12:22.880

0 投票

0 回答

106 浏览

python - 无法使用 UI（带头）运行 scrapy-selenium 库

我正在使用scrapy_selenium，但我不知道如何使用UI运行它我遵循了这个答案，但我收到以下错误：

settings.py：

代码：

python web-scraping scrapy-selenium

2021-08-21T06:17:53.820

0 投票

1 回答

94 浏览

javascript - 如何抓取不返回值的按钮

我正在尝试从网站https://tonaton.com/en/ads/ghana/electronics抓取。有一个“下一步”按钮，我想单击并抓取内容。问题是该按钮的xpath或css选择器在scrapy shell和splash中都没有返回任何值，我被卡住了。我不能进去刮我需要的东西。请问有什么帮助吗？这就是我能走多远，但我没有得到正确的结果。

进口scrapy 进口scrapy_selenium 从scrapy_selenium 进口SeleniumRequest

类 VisionSpider(scrapy.Spider): name = 'vision'

javascript selenium scrapy scrapinghub scrapy-selenium

2021-08-30T16:17:11.043

0 投票

1 回答

95 浏览

python - 我的 Scrapy 代码要么过滤太多，要么重复抓取相同的东西

我正在尝试让scrapy-selenium 导航一个url，同时在途中选择一些数据。问题是它似乎过滤掉了太多数据。我相信那里没有那么多数据。我的问题是我不知道在哪里申请dont_filter=True。这是我的代码

这是我运行代码时的结果：

我似乎弄错了，因为它过滤掉了太多，并且没有获取所有数据。我似乎也对元数据有问题，因为一旦进入下一页，我就会得到一个 KeyError。

python web-scraping scrapy scrapy-selenium

2021-09-06T01:35:28.253

0 投票

2 回答

380 浏览

python - Selector 类型的对象不是 JSON 可序列化的

我正在尝试抓取一个动态网站，我需要 Selenium。

只有当我点击该特定元素时，我想要抓取的链接才会打开。它们是由 jQuery 打开的，所以我唯一的选择是单击它们，因为没有 href 属性或任何可以给我 URL 的东西。

我的方法是这样的：

但它不会工作。

在我要单击该元素的行上，出现此错误：

我有点理解这个错误，但我不知道如何解决它。我不知何故需要将该对象从选择器转换为可点击按钮。

我在网上查了解决方案和文档，但我找不到任何有用的东西。

任何人都可以帮助我更好地理解这个错误，我应该如何解决它？

谢谢。

python selenium selenium-webdriver scrapy scrapy-selenium

2021-09-17T15:39:01.330

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapy-selenium]

Reference