问题标签 [scrapy-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
711 浏览

shell - Scrapy response.xpath 不返回任何查询

我正在使用scrapy shell 来提取一些文本数据。以下是我在 scrapy shell 中给出的命令:

第三个命令不返回任何数据。我试图在命令中的 2 个关键字之间提取数据。我哪里错了?

0 投票
1 回答
799 浏览

python-2.7 - 为什么我的 scrapy 没有使用 start_urls 列表中的所有 url?

我的 start_urls 列表中有近 300 个 url,但 scrapy 只写了大约 200 个 url。但并非所有这些列出的网址。我不知道为什么?我该如何处理。我必须从网站上潦草地写更多的项目。

另一个我不明白的问题是:scrapy 完成时如何查看日志错误?从终端或我必须编写代码才能看到日志错误。我认为日志是默认启用的。

感谢您的回答。


更新:

输出如下。我不知道为什么只有 2829 项被刮掉。我的 start_urls 实际上有 600 个 url。

但是当我在 start_urls 中只给出 400 个 url 时,它可以抓取 6000 个项目。我希望能刮掉 www.yhd.com 的几乎整个网站。有人可以提供更多建议吗?

0 投票
2 回答
1094 浏览

python - Scrapy Shell XPath

我正在尝试从此http://www.npr.org/rss/#feeds新闻提要网站获取链接和类别。

这是我在scrapy shell中的xpath:

但是 b 的长度比 a 的长度小一。我不知道我在这里错过了什么。但这会导致数据出现问题。

从下图中,类别名称是“通过电子邮件发送最多的故事”,但链接是“新闻头条”

任何帮助,将不胜感激Xpath 屏幕

0 投票
0 回答
212 浏览

python-2.7 - scrapy keyError: z (freebsd)

我正在尝试在freebsd(MariaDB)系统中安装scrapy 0.24但是当我尝试运行它时我有一个“keyError:'z'”,我不知道它是什么意思......我试图调试它没有成功.

我会尝试在freebsd中安装scrapy 0.22,以防万一这可能是问题

非常感谢!!

0 投票
1 回答
12222 浏览

xpath - scrapy xpath 按类名选择元素

我已经关注了如何使用 XPath 通过 CSS 类找到元素?它提供了用于按类名选择元素的选择器。问题是当我使用它时,它会检索一个空结果“[]”,事实上我知道在提供给 scrapy shell 的 url 中有一个分类为“zoomWindow”的 div。

在此处输入图像描述

我的尝试:

我查看了许多提供各种选择器的资源。在我的情况下,该元素只有一个类,因此使用“concat”的版本我使用但没有工作并被丢弃。

我已经在虚拟机中安装了 ubuntu 和 scrapy,只是为了确保它不是我在 Windows 上安装的错误,但我在 ubuntu 上的尝试得到了相同的结果。

我不知道还能尝试什么,你能在选择器中看到任何拼写错误吗?

0 投票
1 回答
1253 浏览

python - Scrapy ImagesPipeline WARNING: File (unknown-error): Error download image from

我正在学习 Python 和 Scrapy,并且正在学习如何使用它下载图像。我现在有点卡住了,我无法弄清楚真正的问题是什么。

运行蜘蛛时收到此错误消息

请在此处查看我的 pipelines.py

请在此处查看我的 settings.py

请在这里查看我的蜘蛛

在我的 item.py 中,我添加了以下代码

请告诉我如何正确配置它以便下载图像。我在 Windows 8 机器上。先感谢您。


Python递归没有'in'解决方法

所以我的递归函数也是在列表中查看,看看是否已经在列表中重复了一个项目。前任。L = [1,2,3,4,3] 返回真。我已经完成了它,但我不允许使用“in”功能,但不知道如何解决。

编辑:我被允许使用的唯一内置函数是len, 和index和拼接运算符。

0 投票
1 回答
2679 浏览

python - python在url中转换汉字

我有一个像

href="../job/jobarea.asp?C_jobtype=经营管理资源&人数=151" ,

这显示在检查元素中。但是当在新标签中打开时,它显示为

../job/jobarea.asp?C_jobtype=%B8g%C0%E7%BA%DE%B2z%A5D%BA%DE&peoplenumber=151

我怎么知道浏览器使用哪种类型的编码来转换它。当我尝试做scrapy时,它显示了一些其他格式,并且由于500内部服务器错误而停止。你能解释一下吗?

0 投票
1 回答
162 浏览

xpath - Scrapy Amazon 绝对路径但没有返回值

我正在尝试通过使用如下绝对路径来使用来自 amazon.co.uk 的 Scrapy 一些信息。但奇怪的是没有返回值。我对 Scrapy 很陌生:

在这种情况下,我希望它返回 name 属性是:RI4HGFJCSI04W

0 投票
1 回答
594 浏览

scrapy - Scrapy redirects to homepage for some urls

I am new to Scrapy framework & currently using it to extract articles from multiple 'Health & Wellness' websites. For some of the requests, scrapy is redirecting to homepage(this behavior is not observed in browser). Below is an example:

Command: scrapy shell "http://www.bornfitness.com/blog/page/10/" Result: 2015-06-19 21:32:15+0530 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 2015-06-19 21:32:15+0530 [default] INFO: Spider opened 2015-06-19 21:32:15+0530 [default] DEBUG: Redirecting (301) to http://www.bornfitness.com/> from http://www.bornfitness.com/blog/page/10/> 2015-06-19 21:32:16+0530 [default] DEBUG: Crawled (200) http://www.bornfitness.com/> (referer: None)

Note that the page number in url(10) is a two-digit number. I don't see this issue with urls with single-sigit page number(8 for example). Result: 2015-06-19 21:43:15+0530 [default] INFO: Spider opened 2015-06-19 21:43:16+0530 [default] DEBUG: Crawled (200) http://www.bornfitness.com/blog/page/8/> (referer: None)

0 投票
3 回答
3693 浏览

python - 针对本地文件的 Scrapy shell

在 Scrapy 1.0 之前,我可以非常简单地针对本地文件运行 Scrapy Shell:

升级到1.0.3后开始报错:

这种行为是有意的还是 Scrapy Shell 中的错误?


作为一种解决方法,我可以在“文件”URL 方案中使用文件的绝对路径:

显然,这不那么方便和容易。