问题标签 [scrapy-selenium]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 抓取后保持浏览器窗口打开?
使用时scrapy-selenium
,如何在抓取完成(或中止)后保持浏览器窗口打开?
python - Scrapy 中的硒。如何在scrapy内运行for循环?
我正在尝试使用硒自动化在谷歌反向图像搜索中搜索照片链接列表。我能够获得第一个链接谷歌它并获得谷歌搜索页面的 URL,但随后scrapy 停止。我如何通过for循环中的所有链接继续运行scrapy?我正在谈论的循环是for link in links:
下面的代码:
python - 我正在尝试使用带有 selenium 的通用蜘蛛模板来抓取爬虫,但是当爬到产品详细信息页面时,它会给出错误的数据
块引用
我正在尝试提取href链接,然后我加入了url,然后我给了seleniumRequest和加入的url,我的代码可以工作,它会爬取数据,但结果它会产生相同的重复数据,爬取的数据将是重复的
看起来一切都很好,没有错误,但输出是重复的,数据也来自不同的产品链接
python - Scrapy/Selenium - driver.get_cookies() 返回错误的 cookie(对于与 start_urls 不同的 url)
我创建了一个抓取 cookie 的蜘蛛的简单示例。我需要使用 Selenium,因为我还需要 JS 设置的 cookie。
网址列表:
当我在方法中检查 cookie 时parse
,我得到了一个奇怪的结果——对于第一个 url “archive.org”,只有“foxnews.com”cookie,对于“foxnews.com”只有“spiegel.de”cookie 等。
这是蜘蛛:
我使用Scrapy-Selenium
python模块。
输出(日志除外):
你知道它为什么会这样吗?
selenium - 如何使用scrapy-selenium加载更多/显示更多分页
得到回应但什么也没刮!!
python - 带有javascript下一页的Scrapy和Selenium不起作用
我将刮掉下一页的所有职位,但它只刮掉第一页。该网址仅包含四页,每页包含 25 个项目,但我从未到达下一页。
javascript - 如何抓取不返回值的按钮
我正在尝试从网站https://tonaton.com/en/ads/ghana/electronics抓取。有一个“下一步”按钮,我想单击并抓取内容。问题是该按钮的xpath或css选择器在scrapy shell和splash中都没有返回任何值,我被卡住了。我不能进去刮我需要的东西。请问有什么帮助吗?这就是我能走多远,但我没有得到正确的结果。
进口scrapy 进口scrapy_selenium 从scrapy_selenium 进口SeleniumRequest
类 VisionSpider(scrapy.Spider): name = 'vision'
python - 我的 Scrapy 代码要么过滤太多,要么重复抓取相同的东西
我正在尝试让scrapy-selenium 导航一个url,同时在途中选择一些数据。问题是它似乎过滤掉了太多数据。我相信那里没有那么多数据。我的问题是我不知道在哪里申请dont_filter=True
。这是我的代码
这是我运行代码时的结果:
我似乎弄错了,因为它过滤掉了太多,并且没有获取所有数据。我似乎也对元数据有问题,因为一旦进入下一页,我就会得到一个 KeyError。
python - Selector 类型的对象不是 JSON 可序列化的
我正在尝试抓取一个动态网站,我需要 Selenium。
只有当我点击该特定元素时,我想要抓取的链接才会打开。它们是由 jQuery 打开的,所以我唯一的选择是单击它们,因为没有 href 属性或任何可以给我 URL 的东西。
我的方法是这样的:
但它不会工作。
在我要单击该元素的行上,出现此错误:
我有点理解这个错误,但我不知道如何解决它。我不知何故需要将该对象从选择器转换为可点击按钮。
我在网上查了解决方案和文档,但我找不到任何有用的东西。
任何人都可以帮助我更好地理解这个错误,我应该如何解决它?
谢谢。