问题标签 [scrapy-spider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1431 浏览

python - 在爬虫中以不同的功能在scrapy中填充项目

我想要做的是将 item.py 中定义的项目字段填充到 spider.py 文件中的不同函数中,例如在发出所有请求的 start_requests 函数中,我想填写一个名为“item_id”的字段'。

请注意,我在 init 函数中创建了一个项目实例。这样,只有 item_id 字段被填充并传递给下一个解析器方法(parse_search_result)。item.py 中的其他字段将在下一个函数中填充,并再次传递给另一个解析器方法。会是合法的吗?

0 投票
1 回答
1993 浏览

python-2.7 - 运行 Scrapy 项目时无法导入名称

我的项目名称是 NOTHS。

以下脚本是我使用的spider.pyand items.py

spider.py

items.py

当我运行它时,会发生以下错误:

我究竟做错了什么?

0 投票
1 回答
16 浏览

python-2.7 - 需要帮助理解程序的输出

我正在与 ma project XYZ 合作

我被困在从源代码中提取文本

我想将href提取为内容

我试过这个

并且output

我期待输出为

我做错了什么......?

0 投票
0 回答
524 浏览

python - 使用 Scrapy 从两个级别的 sitemap.xml 获取链接

我需要从 sitemap.xml 文件中获取帖子。sitemap.xml 文件指向其他站点地图文件。我的蜘蛛如下,它适用于主站点地图文件指向的站点地图之一。

如何让蜘蛛跟随主站点地图文件指向的站点地图文件?主要站点地图文件如下:

0 投票
1 回答
9111 浏览

python - python scrapy parse()函数,返回值在哪里?

我是 Scrapy 的新手,如果这个问题是微不足道的,我很抱歉。我从官方网页上阅读了关于 Scrapy 的文档。当我浏览文档时,我遇到了这个例子:

我知道,parse 方法必须返回一个项目或/和请求,但是这些返回值返回到哪里呢?

一个是项目,另一个是请求,我认为这两种类型的处理方式会有所不同,在 的情况下CrawlSpider,它具有带有回调的规则。这个回调的返回值呢?去哪儿 ?一样parse()吗?

我对 Scrapy 程序很困惑,即使我阅读了文档....

0 投票
1 回答
702 浏览

python - 认证后scrapy解析错误的页面

我对此有点陌生,我从网上借用了代码。
我正在尝试在身份验证后解析页面的内容,但我只得到登录页面。
看来我登录正确。最终,我想要一个特定的表,但现在我对页面转储感到满意。

我在 termianl 的结果是:

0 投票
1 回答
39 浏览

python - Python Scrapy allowed_damins 属性

我正在学习编写简单的代码,获取堆栈溢出问题的发布信息。

我设置allowed_domains = ["http://stackoverflow.com/questions/]了一个基础蜘蛛。而它的 parse() 方法只返回一个带有格式 url 的 Request。"http://stackoverflow.com/questions/%d/" % no

我认为它会起作用......也许我对 allowed_domain 有误解。parse() 返回的所有请求似乎都被 allowed_domain 过滤了。它仅在我删除 allowed_domain 时才有效。你可以解释吗..?对不起我的琐碎问题。

0 投票
1 回答
147 浏览

python-2.7 - Python Scrapy,LinkExtracotr 不适用于某些特定的 url 重定向

实际上我是 Web 和 Scrapy 的新手......所以如果我的问题很愚蠢,请理解。

这是我想要的, (A)http://www.seoultech.ac.kr/包括一个链接的 URL (B) ctl.seoultech.ac.kr。(B) 的域是 (A) 的子域

而我start_urls的是 (A),并且比using allow_domains=(B) 的LinkExtractor,爬虫只提取一页 (B),并且

其次,由于页面 (B) 还包含一些带有其域的 URL,我希望它会提取 (B) 中包含的 URL,但它不起作用,只能抓取 (B)。

URL (B) 被重定向到,http://ctl.seoultech.ac.kr/web/index.php但我知道 Scrapy 自己处理它,我认为这不是问题。

以下是我的简单代码。

0 投票
3 回答
1077 浏览

python - 在发送之前修改网址以在scrapy中获取

我想解析站点地图并从站点地图中找出所有网址,然后在所有网址上附加一些单词,然后我想检查所有修改后的网址的响应代码。

对于这项任务,我决定使用scrapy,因为它可以抓取站点地图。它在 Scarpy 的文档中给出

在本文档的帮助下,我创建了我的蜘蛛。但我想在发送获取之前更改网址。所以为此我试图从这个链接中寻求帮助。此链接建议我使用rules和实施process_requests(). 但我无法利用这些。我有点厌倦了我的评论。任何人都可以帮我为注释行编写确切的代码或在scrapy中执行此任务的任何其他方式吗?

0 投票
1 回答
616 浏览

scrapy - Scrapy 没有输出

我正在尝试从 URL 列表中抓取一些数据,例如http://basketball.realgm.com/international/league/12/French-LNB-Pro-A/teams以提取所有团队名称。下面是我的蜘蛛,它通过 URL 运行但没有获取任何数据?