问题标签 [scrapy-spider]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1529 问题

0 投票

2 回答

2307 浏览

scrapy - Scrapy crawl resume 不会抓取任何东西，只是完成

我使用 CrawlSpider Derived 类开始爬行，然后使用 Ctrl+C 暂停它。当我再次执行命令以恢复它时，它不会继续。

我的开始和恢复命令：

Scrapy 创建文件夹。权限为 777。

当我恢复爬行时，它只输出：

我有一个 start_url。这可能是原因吗？我的爬虫使用一个 start_url，然后按照带有 LinkExtractor 的规则进行分页，并通过特定的 url 格式调用解析项：

我的蜘蛛代码：

scrapy scrapy-spider

2014-11-21T16:19:16.293

0 投票

1 回答

70 浏览

python - 递归爬取页面

我的问题是：我在主页上有一个列表（html - li），对于我想在另一个页面中输入的列表中的每个组件，获取一些信息，将它们放在一个项目元素中，并与其他元素交互主页列表中的元素 (html - li)。我已经完成了第一个代码，但我是 Python、Scrapy 的新手，我发现编写代码有些困难。

我得到了这个解决方案，但它为每个主列表元素生成两个项目。

有人可以帮我生成一个填充了“title”、“room”、“mclass”、“minAge”、“cover”、“sessions”、“trailer”、“synopsis”字段的项目元素吗？而不是用“title”、“room”、“mclass”、“minAge”、“cover”、“sessions”字段填充的项目和另一个用“trailer”、“synopsis”填充的项目？

2014-11-29T05:27:18.023

0 投票

0 回答

1403 浏览

python-2.7 - 我如何使用scrapy shell在url上使用用户名和密码（登录时需要网站）

我想废弃一个登录需要网站，并在 python scrapy-framework 中使用 scrapy shell 检查我的 xpath 正确或错误，例如

python-2.7 xpath scrapy scrapyd scrapy-spider

2014-12-01T15:45:56.677

0 投票

3 回答

1966 浏览

python - 使用scrapy，python中的站点地图蜘蛛解析具有不同url格式的站点地图中的url

我在scrapy，python中使用站点地图蜘蛛。站点地图似乎有不寻常的格式，网址前有“//”：

myspider.py

我收到此错误：

如何使用站点地图蜘蛛手动解析 url？

python web-scraping scrapy sitemap scrapy-spider

2014-12-04T05:29:06.137

0 投票

1 回答

799 浏览

python-2.7 - 为什么我的 scrapy 没有使用 start_urls 列表中的所有 url？

我的 start_urls 列表中有近 300 个 url，但 scrapy 只写了大约 200 个 url。但并非所有这些列出的网址。我不知道为什么？我该如何处理。我必须从网站上潦草地写更多的项目。

另一个我不明白的问题是：scrapy 完成时如何查看日志错误？从终端或我必须编写代码才能看到日志错误。我认为日志是默认启用的。

感谢您的回答。

更新：

输出如下。我不知道为什么只有 2829 项被刮掉。我的 start_urls 实际上有 600 个 url。

但是当我在 start_urls 中只给出 400 个 url 时，它可以抓取 6000 个项目。我希望能刮掉 www.yhd.com 的几乎整个网站。有人可以提供更多建议吗？

python-2.7 scrapy scrapy-spider scrapy-shell

2014-12-05T17:23:35.043

0 投票

1 回答

2050 浏览

python - scrapy LxmlLinkExtractor 和相关网址

我应该以我的规则结束的正确网址是： http: //www.lecture-en-ligne.com/towerofgod/168/0/0/1.html

scrapys 从源代码中很好地获取了相对 url：

但它然后爬得很糟糕，认为双点斜线双点是下一个要获取的网址的一部分......

我应该使用自定义 process_value 转换从 LxmlLinkExtractor 获得的双重相对 url 吗？

scrapy 是否正确处理相对 url，我的意思是这是预期的行为？

2014-12-06 17:20:05+0100 [togspider] 调试：已爬网（200）http://www.lecture-en-ligne.com/manga/towerofgod/>（参考：无）

2014-12-06 17:20:05+0100 [togspider] 调试：重试 http://www.lecture-en-ligne.com/../../towerofgod/160/0/0/1.html> （失败 1 次）：400 错误请求

python scrapy scrapy-spider

2014-12-06T16:32:16.967

0 投票

1 回答

453 浏览

python-2.7 - Scrapy-Scraper 不运行

我可以使用 Beautiful Soup 和 Mechanized 运行 python，但由于某种原因，当我尝试使用 Spray-Scraper 时，它就不起作用了。这是我尝试使用教程测试刮板时发生的示例：

项目名称 & BOT 名称 = "教程"

以下脚本是我使用的 items.py 和 settings.py。

项目.py

设置.py

命令

python-2.7 web-scraping scrapy screen-scraping scrapy-spider

2014-12-10T16:40:23.930

0 投票

1 回答

241 浏览

python - 刮屏刮板错误 - 找不到我的生活有什么问题

我无法弄清楚是什么导致了这个错误。该错误发生在 craig.py 文件的第 3 行，但我没有看到任何差异。

文件夹结构

克雷格（文件夹）
- 蜘蛛（文件夹）
  - 初始化.py
  - 初始化.pyc
  - 克雷格.py
  - 克雷格.pyc
- 初始化.py
- 初始化.pyc
- 管道.py
- 设置.py
- 设置.pyc
- scrapy.cfg

项目名称：Craig 文件名：Craig Spyder 名称：Craig.py

克雷格.py

项目.py

这是错误：

python python-2.7 scrapy screen-scraping scrapy-spider

2014-12-10T19:11:45.113

0 投票

2 回答

1930 浏览

python - 如何跟踪深度为 2 的 Scrapy 链接？

我正在编写一个刮板，它应该从初始网页中提取所有链接，如果它在元数据中有任何给定的关键字，并且如果它们在 URL 中包含“htt”，请按照它们并重复该过程两次，因此抓取的深度将是2. 这是我的代码：

但我得到这个错误：

您能帮我关注其 URL 中包含 http 的链接吗？谢谢！

丹妮

python web-scraping scrapy scrapy-spider

2014-12-12T13:03:08.417

0 投票

0 回答

1343 浏览

python - Scrapy登录并在验证码的情况下重试

我正在研究一个蜘蛛，它需要先登录并解析订单列表。该网站试图在成功登录后偶尔使用验证码，他们要么只要求验证码，要么使用验证码详细信息再次登录。

下面的蜘蛛按预期工作，它尝试登录并在check_login_response方法中检查登录是否成功，如果没有self.login()再次调用。蜘蛛通常会得到一个订单 URL 列表，它们在运行时在__init___方法中加载到 start_urls。

现在发生的事情是蜘蛛执行并停止在parse_page方法中，我可以看到打印在这一行中的 url log.msg('request %s' % url)。但是蜘蛛从不使用 start_urls 列表执行 parse 方法。

该问题仅在发生验证码重试时发生，在正常登录场景下它运行良好并调用解析方法..

请问有什么建议吗？

PS 我尝试了 Spider 和 CrawlSpider 类，我得到了相同的结果

编辑（添加控制台输出）

这是检测到验证码时的情况

这是没有验证码的情况

python web-scraping scrapy scrapy-spider

2014-12-15T23:43:42.740

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapy-spider]

myspider.py

Reference