问题标签 [scrapy-selenium]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
selenium - Scrapy-Selenium 分页
谁能帮我?我正在练习,我无法理解我在分页上做错了什么!它只返回第一页给我,有时会出现错误。当它工作时,它只返回第一页。
“内容安全策略指令 'frame-src' 的源列表包含无效的源 '*trackcmp.net' 将被忽略”,来源:https ://naturaldaterra.com.br/hortifruti.html?page=2 "
python - 如何通过scrapy python从动态(?)创建的表中正确抓取数据
我目前正在尝试从 alibaba.com 抓取公司概述。
为了获得像公司名称这样的信息,我做了:
哪个工作正常。
当输入“公司概览”>“公司简介”并尝试从表中抓取信息时:
我得到一个空数组。
资源/search_results_searchpage.yml:
爬虫.py:
有人知道我可以做些什么来填充 Est. 年吗?我尝试使用 scrapy_selenium 并正确配置它,因为我怀疑该对象是动态生成的但仍然没有运气,或者我可能使用错误
与:
python - 爬取 0 个页面,抓取 0 个项目 ERROR / webscraping / SELENIUM
所以我尝试了几件事来理解为什么我的蜘蛛失败了,但没有成功。我已经被困了好几天了,不能再拖延了。我只想抓取第一页,此时不进行分页。我非常感谢您的帮助:(这是我的代码:
这是我的 settings.py 文件:
这是我执行时在终端中得到的:
python - Scrapy / 对第一个请求页面使用 Scrapy Selenium?
我有一个使用scrapy_selenium 的正在运行的解决方案,用于带有javascript 加载的站点。正如您在下面的代码中看到的那样,在使用 parseDetails 生成 detailPage 时使用了 SeleniumRequest -
但是,当我需要在我的主页上准备好 SeleniumRequest(而不仅仅是下面的详细信息页面)时,我该怎么办?
在这种情况下,我该如何使用 SeleniumRequest?
selenium-webdriver - 蜘蛛关闭时没有错误消息并且不会刮掉分页中的所有页面(SELENIUM)
我创建了一个管道将所有抓取的数据放入 sqlite 数据库,但我的蜘蛛没有完成分页。这是蜘蛛关闭时我得到的。我应该得到大约 45k 的结果,而我只得到 420。为什么会这样?
这是我的蜘蛛:
这是否与我的 user_agent 明确相关,我已经将其分配给 settings.py 还是我被禁止访问此页面?网页的html也没有任何变化。
谢谢。
selenium - Scrapy-Selenium 中间件:无法从网站抓取数据
我在这里面临一个问题。我正在尝试使用 scrapy-selenium 执行此代码,但这并没有刮什么。实际上我在这里缺少什么。如果是因为“page_source”,那么如何正确应用“page_source”?这是我的代码_
selenium - Scrapy:陈旧的元素引用:元素未附加到页面文档
我正在尝试使用 Scrapy-Selenium 运行此代码。每当我尝试执行此操作时,selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document
都会发生错误。我不知道为什么会这样!除此之外,我想从“product_tab”列表中抓取所有页面(几乎 447 个产品),但它只抓取一个页面。
输出
python - 使用 scrapy_selenium 进行抓取:为参数“wait_time”获取多个值
我正在尝试抓取服装网站,scrapy_selenium
但出现以下错误:
参数“wait_time”有多个值
当我从中删除所有参数时SeleniumRequest
,除此之外url
,callback=self.parse
我得到了这个新错误:
TypeError:init()缺少1个必需的位置参数:'url'
我已经搜索过它可能是 chromedriver 路径,但是我看到的链接是selenium
而不是scrapy_selenium
,所以我认为问题可能不同?
例如,我正在运行这个脚本:
我还得到以下信息:
2022-01-04 13:01:22 [selenium.webdriver.remote.remote_connection] 调试:删除 http://localhost:56701/session/1773c683cbe7b50aa0c64eea666c4ea9 {} 2022-01-04 13:01:22 [urllib3.connectionpool]调试:http://localhost:56701“删除/session/1773c683cbe7b50aa0c64eea666c4ea9 HTTP/1.1”200 14
我的设置如下:
selenium - scrapy_selenium,如何传递驱动来解析
我正在使用 scrapy_selenium 运行此代码,但我无法将驱动程序传递给 parse_page,谁能确定我做错了什么?