问题标签 [scrapy-spider]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scrapy - Scrapy crawl resume 不会抓取任何东西,只是完成
我使用 CrawlSpider Derived 类开始爬行,然后使用 Ctrl+C 暂停它。当我再次执行命令以恢复它时,它不会继续。
我的开始和恢复命令:
Scrapy 创建文件夹。权限为 777。
当我恢复爬行时,它只输出:
我有一个 start_url。这可能是原因吗?我的爬虫使用一个 start_url,然后按照带有 LinkExtractor 的规则进行分页,并通过特定的 url 格式调用解析项:
我的蜘蛛代码:
python - 递归爬取页面
我的问题是:我在主页上有一个列表(html - li),对于我想在另一个页面中输入的列表中的每个组件,获取一些信息,将它们放在一个项目元素中,并与其他元素交互主页列表中的元素 (html - li)。我已经完成了第一个代码,但我是 Python、Scrapy 的新手,我发现编写代码有些困难。
我得到了这个解决方案,但它为每个主列表元素生成两个项目。
有人可以帮我生成一个填充了“title”、“room”、“mclass”、“minAge”、“cover”、“sessions”、“trailer”、“synopsis”字段的项目元素吗?而不是用“title”、“room”、“mclass”、“minAge”、“cover”、“sessions”字段填充的项目和另一个用“trailer”、“synopsis”填充的项目?
python-2.7 - 我如何使用scrapy shell在url上使用用户名和密码(登录时需要网站)
我想废弃一个登录需要网站,并在 python scrapy-framework 中使用 scrapy shell 检查我的 xpath 正确或错误,例如
python - 使用scrapy,python中的站点地图蜘蛛解析具有不同url格式的站点地图中的url
我在scrapy,python中使用站点地图蜘蛛。站点地图似乎有不寻常的格式,网址前有“//”:
myspider.py
我收到此错误:
如何使用站点地图蜘蛛手动解析 url?
python-2.7 - 为什么我的 scrapy 没有使用 start_urls 列表中的所有 url?
我的 start_urls 列表中有近 300 个 url,但 scrapy 只写了大约 200 个 url。但并非所有这些列出的网址。我不知道为什么?我该如何处理。我必须从网站上潦草地写更多的项目。
另一个我不明白的问题是:scrapy 完成时如何查看日志错误?从终端或我必须编写代码才能看到日志错误。我认为日志是默认启用的。
感谢您的回答。
更新:
输出如下。我不知道为什么只有 2829 项被刮掉。我的 start_urls 实际上有 600 个 url。
但是当我在 start_urls 中只给出 400 个 url 时,它可以抓取 6000 个项目。我希望能刮掉 www.yhd.com 的几乎整个网站。有人可以提供更多建议吗?
python - scrapy LxmlLinkExtractor 和相关网址
我应该以我的规则结束的正确网址是: http: //www.lecture-en-ligne.com/towerofgod/168/0/0/1.html
scrapys 从源代码中很好地获取了相对 url:
但它然后爬得很糟糕,认为双点斜线双点是下一个要获取的网址的一部分......
我应该使用自定义 process_value 转换从 LxmlLinkExtractor 获得的双重相对 url 吗?
scrapy 是否正确处理相对 url,我的意思是这是预期的行为?
2014-12-06 17:20:05+0100 [togspider] 调试:已爬网(200)http://www.lecture-en-ligne.com/manga/towerofgod/>(参考:无)
2014-12-06 17:20:05+0100 [togspider] 调试:重试 http://www.lecture-en-ligne.com/../../towerofgod/160/0/0/1.html> (失败 1 次):400 错误请求
python-2.7 - Scrapy-Scraper 不运行
我可以使用 Beautiful Soup 和 Mechanized 运行 python,但由于某种原因,当我尝试使用 Spray-Scraper 时,它就不起作用了。这是我尝试使用教程测试刮板时发生的示例:
项目名称 & BOT 名称 = "教程"
以下脚本是我使用的 items.py 和 settings.py。
项目.py
设置.py
命令
python - 刮屏刮板错误 - 找不到我的生活有什么问题
我无法弄清楚是什么导致了这个错误。该错误发生在 craig.py 文件的第 3 行,但我没有看到任何差异。
文件夹结构
- 克雷格(文件夹)
- 蜘蛛(文件夹)
- 初始化.py
- 初始化.pyc
- 克雷格.py
- 克雷格.pyc
- 初始化.py
- 初始化.pyc
- 管道.py
- 设置.py
- 设置.pyc
- scrapy.cfg
- 蜘蛛(文件夹)
项目名称:Craig 文件名:Craig Spyder 名称:Craig.py
克雷格.py
项目.py
这是错误:
python - 如何跟踪深度为 2 的 Scrapy 链接?
我正在编写一个刮板,它应该从初始网页中提取所有链接,如果它在元数据中有任何给定的关键字,并且如果它们在 URL 中包含“htt”,请按照它们并重复该过程两次,因此抓取的深度将是2. 这是我的代码:
但我得到这个错误:
您能帮我关注其 URL 中包含 http 的链接吗?谢谢!
丹妮
python - Scrapy登录并在验证码的情况下重试
我正在研究一个蜘蛛,它需要先登录并解析订单列表。该网站试图在成功登录后偶尔使用验证码,他们要么只要求验证码,要么使用验证码详细信息再次登录。
下面的蜘蛛按预期工作,它尝试登录并在check_login_response
方法中检查登录是否成功,如果没有self.login()
再次调用。蜘蛛通常会得到一个订单 URL 列表,它们在运行时在__init___
方法中加载到 start_urls。
现在发生的事情是蜘蛛执行并停止在parse_page
方法中,我可以看到打印在这一行中的 url log.msg('request %s' % url)
。但是蜘蛛从不使用 start_urls 列表执行 parse 方法。
该问题仅在发生验证码重试时发生,在正常登录场景下它运行良好并调用解析方法..
请问有什么建议吗?
PS 我尝试了 Spider 和 CrawlSpider 类,我得到了相同的结果
编辑(添加控制台输出)
这是检测到验证码时的情况
这是没有验证码的情况