问题标签 [scrapy-selenium]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

24 问题

0 投票

1 回答

89 浏览

selenium - Scrapy-Selenium 分页

谁能帮我？我正在练习，我无法理解我在分页上做错了什么！它只返回第一页给我，有时会出现错误。当它工作时，它只返回第一页。

“内容安全策略指令 'frame-src' 的源列表包含无效的源 '*trackcmp.net' 将被忽略”，来源：https ://naturaldaterra.com.br/hortifruti.html?page=2 "

2021-10-13T23:14:30.870

0 投票

1 回答

114 浏览

python - 如何通过scrapy python从动态（？）创建的表中正确抓取数据

我目前正在尝试从 alibaba.com 抓取公司概述。

例如：https ://www.alibaba.com/product-detail/T14-series-original-air-pro-TWS_1600273931389.html?spm=a2700.galleryofferlist.normal_offer.d_title.4aa778f2ahtuBx&s=p

为了获得像公司名称这样的信息，我做了：

哪个工作正常。

当输入“公司概览”>“公司简介”并尝试从表中抓取信息时：

我得到一个空数组。

资源/search_results_searchpage.yml：

爬虫.py：

有人知道我可以做些什么来填充 Est. 年吗？我尝试使用 scrapy_selenium 并正确配置它，因为我怀疑该对象是动态生成的但仍然没有运气，或者我可能使用错误

与：

python scrapy web-crawler scrapy-selenium

2021-10-19T16:04:30.697

0 投票

2 回答

159 浏览

python - 如何从需要使用scrapy-selenium单击的选项卡中抓取页面

所以我想从这个网站上抓取数据，特别是从公司详细信息部分：

要抓取的网站

我从一个人那里得到了一些帮助来让它与 python playwright 一起工作，但我需要用 python scrapy-selenium 来完成这件事。

我想将代码从这里的答案重写为scrapy-selenium方式。

原始问题

我试过这样做，就像在这个问题中建议的那样

刮痧硒

但没有运气=/

我的代码：

资源/search_results_searchpage.yml：

爬虫.py：

运行代码：

公司名称被正确返回。成立年份仍为空，应返回年份。

python selenium scrapy scrapy-selenium

2021-10-25T21:11:41.207

0 投票

1 回答

45 浏览

python - 爬取 0 个页面，抓取 0 个项目 ERROR / webscraping / SELENIUM

所以我尝试了几件事来理解为什么我的蜘蛛失败了，但没有成功。我已经被困了好几天了，不能再拖延了。我只想抓取第一页，此时不进行分页。我非常感谢您的帮助:(这是我的代码：

这是我的 settings.py 文件：

这是我执行时在终端中得到的：

python selenium web-scraping scrapy scrapy-selenium

2021-11-03T19:15:35.740

0 投票

1 回答

90 浏览

python - Scrapy / 对第一个请求页面使用 Scrapy Selenium？

我有一个使用scrapy_selenium 的正在运行的解决方案，用于带有javascript 加载的站点。正如您在下面的代码中看到的那样，在使用 parseDetails 生成 detailPage 时使用了 SeleniumRequest -

但是，当我需要在我的主页上准备好 SeleniumRequest（而不仅仅是下面的详细信息页面）时，我该怎么办？

在这种情况下，我该如何使用 SeleniumRequest？

python selenium web-scraping scrapy scrapy-selenium

2021-12-01T19:27:24.957

0 投票

1 回答

50 浏览

selenium-webdriver - 蜘蛛关闭时没有错误消息并且不会刮掉分页中的所有页面（SELENIUM）

我创建了一个管道将所有抓取的数据放入 sqlite 数据库，但我的蜘蛛没有完成分页。这是蜘蛛关闭时我得到的。我应该得到大约 45k 的结果，而我只得到 420。为什么会这样？

这是我的蜘蛛：

这是否与我的 user_agent 明确相关，我已经将其分配给 settings.py 还是我被禁止访问此页面？网页的html也没有任何变化。

谢谢。

selenium-webdriver web-scraping scrapy web-scraping-language scrapy-selenium

2021-12-06T22:10:06.463

0 投票

0 回答

73 浏览

selenium - Scrapy-Selenium 中间件：无法从网站抓取数据

我在这里面临一个问题。我正在尝试使用 scrapy-selenium 执行此代码，但这并没有刮什么。实际上我在这里缺少什么。如果是因为“page_source”，那么如何正确应用“page_source”？这是我的代码_

selenium scrapy selenium-chromedriver scrapy-selenium

2021-12-21T13:17:50.710

0 投票

0 回答

43 浏览

selenium - Scrapy：陈旧的元素引用：元素未附加到页面文档

我正在尝试使用 Scrapy-Selenium 运行此代码。每当我尝试执行此操作时，selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document都会发生错误。我不知道为什么会这样！除此之外，我想从“product_tab”列表中抓取所有页面（几乎 447 个产品），但它只抓取一个页面。

输出

selenium scrapy staleelementreferenceexception scrapy-selenium

2021-12-22T18:54:07.757

0 投票

0 回答

53 浏览

python - 使用 scrapy_selenium 进行抓取：为参数“wait_time”获取多个值

我正在尝试抓取服装网站，scrapy_selenium但出现以下错误：

参数“wait_time”有多个值

当我从中删除所有参数时SeleniumRequest，除此之外url，callback=self.parse我得到了这个新错误：

TypeError：init（）缺少1个必需的位置参数：'url'

我已经搜索过它可能是 chromedriver 路径，但是我看到的链接是selenium而不是scrapy_selenium，所以我认为问题可能不同？

例如，我正在运行这个脚本：

我还得到以下信息：

2022-01-04 13:01:22 [selenium.webdriver.remote.remote_connection] 调试：删除 http://localhost:56701/session/1773c683cbe7b50aa0c64eea666c4ea9 {} 2022-01-04 13:01:22 [urllib3.connectionpool]调试：http://localhost:56701“删除/session/1773c683cbe7b50aa0c64eea666c4ea9 HTTP/1.1”200 14

我的设置如下：

python selenium scrapy scrapy-selenium

2022-01-04T12:56:48.647

0 投票

0 回答

35 浏览

selenium - scrapy_selenium，如何传递驱动来解析

我正在使用 scrapy_selenium 运行此代码，但我无法将驱动程序传递给 parse_page，谁能确定我做错了什么？

selenium parsing scrapy driver scrapy-selenium

2022-01-17T18:47:18.670

1 2 3 4 5 6 7 8 9 10