问题标签 [scrapy-spider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
7975 浏览

python - 在scrapy中记录到特定的错误日志文件

我通过这样做来运行scrapy的日志:

然后我像这样运行蜘蛛:

这会将所有 log.INFO 数据以及 log.ERROR 存储到spider.log.

如果发生错误,我还想将这些详细信息存储在一个名为spider_errors.log. 这将更容易搜索发生的错误,而不是尝试扫描整个spider.log文件(可能很大)。

有没有办法做到这一点?

编辑:

尝试使用 PythonLoggingObserver:

但我明白了ERROR: No handlers could be found for logger "twisted"

0 投票
1 回答
8715 浏览

python - 在scrapy网络爬虫中出现错误

嗨,我试图在我的代码中实现这一点。但我收到以下错误:exceptions.NameError: global name 'Request' is not defined

0 投票
1 回答
1124 浏览

python - Scrapy解析方法不起作用

我正在废弃一个网站,我在 scrapy 中编写了一个蜘蛛,但我可以使用以下方法提取产品价格:

通过scrapy shell

但是当我试图对蜘蛛做同样的事情时,它返回的是空列表

这是我的蜘蛛代码:

这是我的 items.py

有人可以帮帮我吗?

0 投票
4 回答
14826 浏览

python - 加速网页抓取

我正在用一个非常简单的网络刮刀使用scrapy. 我对scrapy甚至python都很陌生,但设法编写了一个可以完成这项工作的蜘蛛。但是,它真的很慢(爬取 23770 个页面大约需要 28 小时)。

我查看了scrapy网页和邮件列表stackoverflow,但我似乎无法找到编写初学者可以理解的快速爬虫的通用建议。也许我的问题不是蜘蛛本身,而是我运行它的方式。欢迎所有建议!

如果需要,我在下面列出了我的代码。

谢谢!

0 投票
4 回答
13175 浏览

python - 通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

我对 Python 有点陌生,对 Scrapy 也很陌生。

我设置了一个蜘蛛来抓取和提取我需要的所有信息。但是,我需要将一个 .txt 的 URL 文件传递​​给 start_urls 变量。

例如:

我做了一些研究,一直空手而归。我见过这种类型的示例(如何在 scrapy spider 中传递用户定义的参数),但我认为这不适用于传递文本文件。

0 投票
3 回答
6044 浏览

python - 有什么方法可以为每个蜘蛛使用单独的scrapy管道吗?

我想获取不同域下的网页,这意味着我必须在命令“scrapy crawl myspider”下使用不同的蜘蛛。但是,由于网页的内容不同,我必须使用不同的管道逻辑将数据放入数据库。但是对于每个蜘蛛来说,它们都必须经过 settings.py 中定义的所有管道。还有其他优雅的方法可以为每个蜘蛛使用单独的管道吗?

0 投票
1 回答
8080 浏览

python - 如何在scrapy spider的start_urls中发送post数据

我想抓取一个只支持发布数据的网站。我想在所有请求的发布数据中发送查询参数。如何做到这一点?

0 投票
1 回答
165 浏览

python - 无法在 Scrapy 中关注链接

我现在开始使用 Scrapy,我知道如何从运动页面(足球运动员的姓名和球队)获取我想要的内容,但我需要按照链接搜索更多球队,每个球队页面都有一个链接到玩家页面,网站链接的结构是:

球队页面:http ://esporte.uol.com.br/futebol/clubes/vitoria/ 球员页面:http ://esporte.uol.com.br/futebol/clubes/vitoria/jogadores/

我已经阅读了一些 Scrapy 教程,我在想团队页面我必须关注链接并且不解析任何内容,而玩家页面我必须不关注并解析玩家,我不知道我是否'我对这个想法和语法错误,如果我的跟随想法是错误的,欢迎任何帮助。

这是我的代码:

0 投票
2 回答
3105 浏览

python - 如何通过外部脚本让爬虫用scrapy返回数据?

当我执行这样的脚本时,如何查看蜘蛛的解析函数的返回数据?

我禁用日志以查看蜘蛛中的打印消息,但启用日志后,返回数据也不会显示。

蜘蛛解析函数的代码返回一个简单的字符串。

我如何获得这些数据?我尝试打印“reactor.run”结果,但总是“无”

0 投票
1 回答
1349 浏览

python - scrapy 没有抓取所有链接

我想从http://community.sellfree.co.kr/中提取数据。Scrapy 正在工作,但它似乎只抓取start_urls,并且不抓取任何链接。

我希望蜘蛛抓取整个网站。

以下是我的代码:

页面上有两种链接。一个是onclick="location='../bbs/board.php?bo_table=maket_5_3'另一个是<a href="../bbs/board.php?bo_table=maket_5_1&amp;sca=프로그램/솔루션"><span class="list2">solution</span></a>

如何让爬虫跟踪这两种链接?