问题标签 [scrapy-selenium]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
89 浏览

selenium - Scrapy-Selenium 分页

谁能帮我?我正在练习,我无法理解我在分页上做错了什么!它只返回第一页给我,有时会出现错误。当它工作时,它只返回第一页。

“内容安全策略指令 'frame-src' 的源列表包含无效的源 '*trackcmp.net' 将被忽略”,来源:https ://naturaldaterra.com.br/hortifruti.html?page=2 "

0 投票
1 回答
114 浏览

python - 如何通过scrapy python从动态(?)创建的表中正确抓取数据

我目前正在尝试从 alibaba.com 抓取公司概述。

例如:https ://www.alibaba.com/product-detail/T14-series-original-air-pro-TWS_1600273931389.html?spm=a2700.galleryofferlist.normal_offer.d_title.4aa778f2ahtuBx&s=p

为了获得像公司名称这样的信息,我做了:

哪个工作正常。

当输入“公司概览”>“公司简介”并尝试从表中抓取信息时:

我得到一个空数组。

资源/search_results_searchpage.yml:

爬虫.py:

有人知道我可以做些什么来填充 Est. 年吗?我尝试使用 scrapy_selenium 并正确配置它,因为我怀疑该对象是动态生成的但仍然没有运气,或者我可能使用错误

与:

0 投票
2 回答
159 浏览

python - 如何从需要使用scrapy-selenium单击的选项卡中抓取页面

所以我想从这个网站上抓取数据,特别是从公司详细信息部分:

要抓取的网站

我从一个人那里得到了一些帮助来让它与 python playwright 一起工作,但我需要用 python scrapy-selenium 来完成这件事。

我想将代码从这里的答案重写为scrapy-selenium方式。

原始问题

我试过这样做,就像在这个问题中建议的那样

刮痧硒

但没有运气=/

我的代码:

资源/search_results_searchpage.yml:

爬虫.py:

运行代码:

公司名称被正确返回。成立年份仍为空,应返回年份。

0 投票
1 回答
45 浏览

python - 爬取 0 个页面,抓取 0 个项目 ERROR / webscraping / SELENIUM

所以我尝试了几件事来理解为什么我的蜘蛛失败了,但没有成功。我已经被困了好几天了,不能再拖延了。我只想抓取第一页,此时不进行分页。我非常感谢您的帮助:(这是我的代码:

这是我的 settings.py 文件:

这是我执行时在终端中得到的:

0 投票
1 回答
90 浏览

python - Scrapy / 对第一个请求页面使用 Scrapy Selenium?

我有一个使用scrapy_selenium 的正在运行的解决方案,用于带有javascript 加载的站点。正如您在下面的代码中看到的那样,在使用 parseDetails 生成 detailPage 时使用了 SeleniumRequest -

但是,当我需要在我的主页上准备好 SeleniumRequest(而不仅仅是下面的详细信息页面)时,我该怎么办?

在这种情况下,我该如何使用 SeleniumRequest?

0 投票
1 回答
50 浏览

selenium-webdriver - 蜘蛛关闭时没有错误消息并且不会刮掉分页中的所有页面(SELENIUM)

我创建了一个管道将所有抓取的数据放入 sqlite 数据库,但我的蜘蛛没有完成分页。这是蜘蛛关闭时我得到的。我应该得到大约 45k 的结果,而我只得到 420。为什么会这样?

这是我的蜘蛛:

这是否与我的 user_agent 明确相关,我已经将其分配给 settings.py 还是我被禁止访问此页面?网页的html也没有任何变化。

谢谢。

0 投票
0 回答
73 浏览

selenium - Scrapy-Selenium 中间件:无法从网站抓取数据

我在这里面临一个问题。我正在尝试使用 scrapy-selenium 执行此代码,但这并没有刮什么。实际上我在这里缺少什么。如果是因为“page_source”,那么如何正确应用“page_source”?这是我的代码_

0 投票
0 回答
43 浏览

selenium - Scrapy:陈旧的元素引用:元素未附加到页面文档

我正在尝试使用 Scrapy-Selenium 运行此代码。每当我尝试执行此操作时,selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document都会发生错误。我不知道为什么会这样!除此之外,我想从“product_tab”列表中抓取所有页面(几乎 447 个产品),但它只抓取一个页面。

输出

0 投票
0 回答
53 浏览

python - 使用 scrapy_selenium 进行抓取:为参数“wait_time”获取多个值

我正在尝试抓取服装网站,scrapy_selenium但出现以下错误:

参数“wait_time”有多个值

当我从中删除所有参数时SeleniumRequest,除此之外urlcallback=self.parse我得到了这个新错误:

TypeError:init()缺少1个必需的位置参数:'url'

我已经搜索过它可能是 chromedriver 路径,但是我看到的链接是selenium而不是scrapy_selenium,所以我认为问题可能不同?

例如,我正在运行这个脚本:

我还得到以下信息:

2022-01-04 13:01:22 [selenium.webdriver.remote.remote_connection] 调试:删除 http://localhost:56701/session/1773c683cbe7b50aa0c64eea666c4ea9 {} 2022-01-04 13:01:22 [urllib3.connectionpool]调试:http://localhost:56701“删除/session/1773c683cbe7b50aa0c64eea666c4ea9 HTTP/1.1”200 14

我的设置如下:

0 投票
0 回答
35 浏览

selenium - scrapy_selenium,如何传递驱动来解析

我正在使用 scrapy_selenium 运行此代码,但我无法将驱动程序传递给 parse_page,谁能确定我做错了什么?