问题标签 [scrapy-spider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4499 浏览

python - 在 Scrapy 中提取图像

我在这里阅读了其他一些答案,但我缺少一些基本的东西。我正在尝试使用 CrawlSpider 从网站中提取图像。

设置.py

项目.py

健康通讯蜘蛛.py

一般来说,我对 Python 不是很熟悉,但我觉得我在这里遗漏了一些非常基本的东西。

谢谢,杰米

0 投票
3 回答
6932 浏览

scrapy - 如何检查 Scrapy 中是否存在特定按钮?

我在网页中有一个按钮

现在我想检查页面上是否存在此按钮,或者不使用 Xpath 选择器,如果存在,我可以转到下一页并从那里检索信息。

0 投票
1 回答
1091 浏览

python - Scrapy:使用 itemloader icw 一个 Postgres 管道的最佳方式是什么?

我正在尝试使用 itemLoader 为 Scrapy 中的空项目提供默认值,就像在 items.py 中一样:

所以如果 prod_specs 没有设置,它应该给它一个空对象。但它不起作用。如果我尝试将字段存储到数据库中item['prod_specs'].

我收到一条错误消息,告诉我密钥不存在:

如果未设置其他字段,则相同。我认为我正在使用item['prod_specs']而不是 items.py 中的 itemLoader 的事实导致了错误。但我不确定。

那你们怎么看?您对此有解决方案吗?

0 投票
1 回答
6036 浏览

python - Scrapy错误:未找到蜘蛛

我已经看到了一个类似的问题,并尝试了给出的答案,但无济于事。有人可以帮我纠正这个吗?

谢谢

0 投票
1 回答
898 浏览

python - 使用scrapy抓取同名的多个唯一项目

我必须抓取以下url,其中基本上包含评论。那里的所有评论都有评论作者姓名、评论标题和评论本身。

我选择了“python-scrapy”来完成这项任务。

但是提到的url不是起始url,我将从基本parse方法中获取它。在解析中,我将初始化一个itemLoder. 我将在那里提取一些项目并通过meta响应传递项目。(提取的字段包含酒店名称、地址、价格等信息......)

我还声明了项目,即“review_member_name”、“review_quote”、“review_review”

页面中有多个评论,评论的评论 ID 可以从response.url. (在下面的解析方法中显示)

由于有许多评论并且所有评论都将共享相同的项目名称,因此项目会被连接起来,这不应该发生。任何人都可以建议我解决这个问题的方法吗?

以下是我的 parse_review 来源。

以下是我的 items.json(“review_review”正在被删除,并且 parse 方法中的项目也被删除)

[{"review_quote": "\u201c Fabulous service \u201d", "review_member_name": "VimalPrakash"}, {"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d", "review_member_name": "VimalPrakash Jessica P"}, {"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d \u201c Nice hotel in a central location \u201d", "review_member_name": "VimalPrakash Jessica P VikInd"}]

请为这个问题提出一个好的标题。

0 投票
0 回答
253 浏览

python - SgmlLinkExtractor 'allow' 定义不适用于 Scrapy

我在 Windows Vista 64 位上使用 Python.org 版本 2.7 64 位。我有以下 Scrapy 代码,其中我定义 SgmlLinkExtractor 的方式没有正确抓取网站:

我已经尝试了 SgmlLinkExtractor 定义的几个不同版本,但似乎都打印到 Command Shell 如下:

任何人都可以在这里看到任何明显的东西为什么这不起作用?

谢谢

0 投票
0 回答
1470 浏览

scrapy - Scrapy Spider 在爬行过程中卡住了

我是scrapy的新手,我正在尝试构建一个蜘蛛,它将抓取一个网站并从中获取所有电话号码、电子邮件、pdf等(我希望它跟随主页上的所有链接,所以它搜索整个域)。

这个问题有一个类似的问题,但没有解决:为什么scrapy crawler stop?

这是我的蜘蛛的代码:

这是挂起之前爬网日志的最后一部分:

0 投票
1 回答
1354 浏览

python - 更改运行蜘蛛的数量scrapyd

嘿,所以我的项目中有大约 50 个蜘蛛,我目前正在通过 scrapyd 服务器运行它们。我遇到了一个问题,我使用的一些资源被锁定并导致我的蜘蛛失败或运行速度非常慢。我希望他们能以某种方式告诉scrapyd 一次只有一个正在运行的蜘蛛,并将其余的留在待处理的队列中。我在文档中没有看到此配置选项。任何帮助将非常感激!

0 投票
1 回答
187 浏览

python - 递归 webscraper 不使用 Scrapy 将文本从页面打印到屏幕

我在 Windows Vista 64 位上使用 Python.org 版本 2.7、64 位。我正在构建一个递归 webscraper,它在仅从单个页面中提取文本时似乎工作,但是在抓取多个页面时似乎没有工作。代码如下:

我从中获得的输出示例如下:

我可以理解外部链接超出爬虫范围而被过滤掉,但是我无法理解为什么返回的结果是“DEBUG:”消息和页面链接,尤其是在成功的情况下为所有这些结果打印 200 的 HTTP 返回代码。

谁能看到这里有什么问题?

谢谢

0 投票
1 回答
591 浏览

python - Scrapy 不使用我当前的语法返回网页的文本正文

我在 Windows Vista 64 位上使用 Python.org 版本 2.7 64 位。我成功地使用了一个用 Scrapy 构建的递归 webscraper 来解析维基百科文章中的所有文本。但是,我正在尝试将相同的代码应用于代码中引用的网站,但它没有返回任何文本正文:

我可能想查看的示例页面是这样的:

http://www.whoscored.com/Articles/pn4gahfw90kjwje-yx7ztq/Show/Player-Focus-Potential-Change-in-System-may-Convince-Vidal-to-Leave-Juventus 据我了解,上面的代码应该提取页面上找到的任何文本字符串并将它们连接在一起。上面示例页面的 HTML 标记用<p>标签封装文本,所以我不确定为什么这不起作用。谁能看到一个明显的原因,为什么我得到的只是使用此代码的页脚?