问题标签 [scrapy-spider]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在scrapy中记录到特定的错误日志文件
我通过这样做来运行scrapy的日志:
然后我像这样运行蜘蛛:
这会将所有 log.INFO 数据以及 log.ERROR 存储到spider.log
.
如果发生错误,我还想将这些详细信息存储在一个名为spider_errors.log
. 这将更容易搜索发生的错误,而不是尝试扫描整个spider.log
文件(可能很大)。
有没有办法做到这一点?
编辑:
尝试使用 PythonLoggingObserver:
但我明白了ERROR: No handlers could be found for logger "twisted"
python - 在scrapy网络爬虫中出现错误
嗨,我试图在我的代码中实现这一点。但我收到以下错误:exceptions.NameError: global name 'Request' is not defined
。
python - Scrapy解析方法不起作用
我正在废弃一个网站,我在 scrapy 中编写了一个蜘蛛,但我可以使用以下方法提取产品价格:
通过scrapy shell
但是当我试图对蜘蛛做同样的事情时,它返回的是空列表
这是我的蜘蛛代码:
这是我的 items.py
有人可以帮帮我吗?
python - 加速网页抓取
我正在用一个非常简单的网络刮刀使用scrapy
. 我对scrapy甚至python都很陌生,但设法编写了一个可以完成这项工作的蜘蛛。但是,它真的很慢(爬取 23770 个页面大约需要 28 小时)。
我查看了scrapy
网页和邮件列表stackoverflow
,但我似乎无法找到编写初学者可以理解的快速爬虫的通用建议。也许我的问题不是蜘蛛本身,而是我运行它的方式。欢迎所有建议!
如果需要,我在下面列出了我的代码。
谢谢!
python - 通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表
我对 Python 有点陌生,对 Scrapy 也很陌生。
我设置了一个蜘蛛来抓取和提取我需要的所有信息。但是,我需要将一个 .txt 的 URL 文件传递给 start_urls 变量。
例如:
我做了一些研究,一直空手而归。我见过这种类型的示例(如何在 scrapy spider 中传递用户定义的参数),但我认为这不适用于传递文本文件。
python - 有什么方法可以为每个蜘蛛使用单独的scrapy管道吗?
我想获取不同域下的网页,这意味着我必须在命令“scrapy crawl myspider”下使用不同的蜘蛛。但是,由于网页的内容不同,我必须使用不同的管道逻辑将数据放入数据库。但是对于每个蜘蛛来说,它们都必须经过 settings.py 中定义的所有管道。还有其他优雅的方法可以为每个蜘蛛使用单独的管道吗?
python - 如何在scrapy spider的start_urls中发送post数据
我想抓取一个只支持发布数据的网站。我想在所有请求的发布数据中发送查询参数。如何做到这一点?
python - 无法在 Scrapy 中关注链接
我现在开始使用 Scrapy,我知道如何从运动页面(足球运动员的姓名和球队)获取我想要的内容,但我需要按照链接搜索更多球队,每个球队页面都有一个链接到玩家页面,网站链接的结构是:
球队页面:http ://esporte.uol.com.br/futebol/clubes/vitoria/ 球员页面:http ://esporte.uol.com.br/futebol/clubes/vitoria/jogadores/
我已经阅读了一些 Scrapy 教程,我在想团队页面我必须关注链接并且不解析任何内容,而玩家页面我必须不关注并解析玩家,我不知道我是否'我对这个想法和语法错误,如果我的跟随想法是错误的,欢迎任何帮助。
这是我的代码:
python - 如何通过外部脚本让爬虫用scrapy返回数据?
当我执行这样的脚本时,如何查看蜘蛛的解析函数的返回数据?
我禁用日志以查看蜘蛛中的打印消息,但启用日志后,返回数据也不会显示。
蜘蛛解析函数的代码返回一个简单的字符串。
我如何获得这些数据?我尝试打印“reactor.run”结果,但总是“无”
python - scrapy 没有抓取所有链接
我想从http://community.sellfree.co.kr/中提取数据。Scrapy 正在工作,但它似乎只抓取start_urls
,并且不抓取任何链接。
我希望蜘蛛抓取整个网站。
以下是我的代码:
页面上有两种链接。一个是onclick="location='../bbs/board.php?bo_table=maket_5_3'
另一个是<a href="../bbs/board.php?bo_table=maket_5_1&sca=프로그램/솔루션"><span class="list2">solution</span></a>
如何让爬虫跟踪这两种链接?