问题标签 [scrapy-spider]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1529 问题

0 投票

1 回答

1431 浏览

python - 在爬虫中以不同的功能在scrapy中填充项目

我想要做的是将 item.py 中定义的项目字段填充到 spider.py 文件中的不同函数中，例如在发出所有请求的 start_requests 函数中，我想填写一个名为“item_id”的字段'。

请注意，我在 init 函数中创建了一个项目实例。这样，只有 item_id 字段被填充并传递给下一个解析器方法（parse_search_result）。item.py 中的其他字段将在下一个函数中填充，并再次传递给另一个解析器方法。会是合法的吗？

2014-09-06T21:01:11.047

0 投票

1 回答

1993 浏览

python-2.7 - 运行 Scrapy 项目时无法导入名称

我的项目名称是 NOTHS。

以下脚本是我使用的spider.pyand items.py。

spider.py：

items.py：

当我运行它时，会发生以下错误：

我究竟做错了什么？

python-2.7 scrapy scrapy-spider

2014-09-09T12:52:58.907

0 投票

1 回答

16 浏览

python-2.7 - 需要帮助理解程序的输出

我正在与 ma project XYZ 合作

我被困在从源代码中提取文本

我想将href提取为内容

我试过这个

并且output是

我期待输出为

我做错了什么......？

python-2.7 web-scraping scrapy scrapy-spider

2014-09-10T09:16:30.927

0 投票

0 回答

524 浏览

python - 使用 Scrapy 从两个级别的 sitemap.xml 获取链接

我需要从 sitemap.xml 文件中获取帖子。sitemap.xml 文件指向其他站点地图文件。我的蜘蛛如下，它适用于主站点地图文件指向的站点地图之一。

如何让蜘蛛跟随主站点地图文件指向的站点地图文件？主要站点地图文件如下：

python scrapy sitemap scrapy-spider

2014-09-14T03:13:46.460

0 投票

1 回答

9111 浏览

python - python scrapy parse()函数，返回值在哪里？

我是 Scrapy 的新手，如果这个问题是微不足道的，我很抱歉。我从官方网页上阅读了关于 Scrapy 的文档。当我浏览文档时，我遇到了这个例子：

我知道，parse 方法必须返回一个项目或/和请求，但是这些返回值返回到哪里呢？

一个是项目，另一个是请求，我认为这两种类型的处理方式会有所不同，在的情况下CrawlSpider，它具有带有回调的规则。这个回调的返回值呢？去哪儿？一样parse()吗？

我对 Scrapy 程序很困惑，即使我阅读了文档....

python web-scraping scrapy scrapy-spider

2014-10-04T18:43:00.327

0 投票

1 回答

702 浏览

python - 认证后scrapy解析错误的页面

我对此有点陌生，我从网上借用了代码。
我正在尝试在身份验证后解析页面的内容，但我只得到登录页面。
看来我登录正确。最终，我想要一个特定的表，但现在我对页面转储感到满意。

我在 termianl 的结果是：

python web-scraping scrapy scrapy-spider

2014-10-05T04:17:18.383

0 投票

1 回答

39 浏览

python - Python Scrapy allowed_damins 属性

我正在学习编写简单的代码，获取堆栈溢出问题的发布信息。

我设置allowed_domains = ["http://stackoverflow.com/questions/]了一个基础蜘蛛。而它的 parse() 方法只返回一个带有格式 url 的 Request。"http://stackoverflow.com/questions/%d/" % no

我认为它会起作用......也许我对 allowed_domain 有误解。parse() 返回的所有请求似乎都被 allowed_domain 过滤了。它仅在我删除 allowed_domain 时才有效。你可以解释吗..？对不起我的琐碎问题。

python scrapy-spider

2014-10-05T15:36:45.797

0 投票

1 回答

147 浏览

python-2.7 - Python Scrapy，LinkExtracotr 不适用于某些特定的 url 重定向

实际上我是 Web 和 Scrapy 的新手......所以如果我的问题很愚蠢，请理解。

这是我想要的， (A)http://www.seoultech.ac.kr/包括一个链接的 URL (B) ctl.seoultech.ac.kr。(B) 的域是 (A) 的子域

而我start_urls的是 (A)，并且比using allow_domains=(B) 的LinkExtractor，爬虫只提取一页 (B)，并且

其次，由于页面 (B) 还包含一些带有其域的 URL，我希望它会提取 (B) 中包含的 URL，但它不起作用，只能抓取 (B)。

URL (B) 被重定向到，http://ctl.seoultech.ac.kr/web/index.php但我知道 Scrapy 自己处理它，我认为这不是问题。

以下是我的简单代码。

python-2.7 web-crawler scrapy-spider

2014-10-07T10:45:02.313

0 投票

3 回答

1077 浏览

python - 在发送之前修改网址以在scrapy中获取

我想解析站点地图并从站点地图中找出所有网址，然后在所有网址上附加一些单词，然后我想检查所有修改后的网址的响应代码。

对于这项任务，我决定使用scrapy，因为它可以抓取站点地图。它在 Scarpy 的文档中给出

在本文档的帮助下，我创建了我的蜘蛛。但我想在发送获取之前更改网址。所以为此我试图从这个链接中寻求帮助。此链接建议我使用rules和实施process_requests(). 但我无法利用这些。我有点厌倦了我的评论。任何人都可以帮我为注释行编写确切的代码或在scrapy中执行此任务的任何其他方式吗？

python scrapy scrapy-spider

2014-10-13T13:21:18.967

0 投票

1 回答

616 浏览

scrapy - Scrapy 没有输出

我正在尝试从 URL 列表中抓取一些数据，例如http://basketball.realgm.com/international/league/12/French-LNB-Pro-A/teams以提取所有团队名称。下面是我的蜘蛛，它通过 URL 运行但没有获取任何数据？

scrapy scrapy-spider

2014-10-20T10:55:12.473

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapy-spider]

Reference