问题标签 [scrapy-spider]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1529 问题

0 投票

1 回答

7975 浏览

python - 在scrapy中记录到特定的错误日志文件

我通过这样做来运行scrapy的日志：

然后我像这样运行蜘蛛：

这会将所有 log.INFO 数据以及 log.ERROR 存储到spider.log.

如果发生错误，我还想将这些详细信息存储在一个名为spider_errors.log. 这将更容易搜索发生的错误，而不是尝试扫描整个spider.log文件（可能很大）。

有没有办法做到这一点？

编辑：

尝试使用 PythonLoggingObserver：

但我明白了ERROR: No handlers could be found for logger "twisted"

2013-04-18T16:24:07.990

0 投票

1 回答

8715 浏览

python - 在scrapy网络爬虫中出现错误

嗨，我试图在我的代码中实现这一点。但我收到以下错误：exceptions.NameError: global name 'Request' is not defined。

python web-scraping scrapy web-crawler scrapy-spider

2013-04-22T05:12:50.387

0 投票

1 回答

1124 浏览

python - Scrapy解析方法不起作用

我正在废弃一个网站，我在 scrapy 中编写了一个蜘蛛，但我可以使用以下方法提取产品价格：

通过scrapy shell

但是当我试图对蜘蛛做同样的事情时，它返回的是空列表

这是我的蜘蛛代码：

这是我的 items.py

有人可以帮帮我吗？

python xpath web-scraping scrapy scrapy-spider

2013-05-17T09:06:18.577

0 投票

4 回答

14826 浏览

python - 加速网页抓取

我正在用一个非常简单的网络刮刀使用scrapy. 我对scrapy甚至python都很陌生，但设法编写了一个可以完成这项工作的蜘蛛。但是，它真的很慢（爬取 23770 个页面大约需要 28 小时）。

我查看了scrapy网页和邮件列表stackoverflow，但我似乎无法找到编写初学者可以理解的快速爬虫的通用建议。也许我的问题不是蜘蛛本身，而是我运行它的方式。欢迎所有建议！

如果需要，我在下面列出了我的代码。

谢谢！

python performance web-scraping scrapy scrapy-spider

2013-06-10T17:42:33.123

0 投票

4 回答

13175 浏览

python - 通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

我对 Python 有点陌生，对 Scrapy 也很陌生。

我设置了一个蜘蛛来抓取和提取我需要的所有信息。但是，我需要将一个 .txt 的 URL 文件传递给 start_urls 变量。

例如：

我做了一些研究，一直空手而归。我见过这种类型的示例（如何在 scrapy spider 中传递用户定义的参数），但我认为这不适用于传递文本文件。

python web-scraping scrapy command-line-arguments scrapy-spider

2013-06-25T21:18:27.807

0 投票

3 回答

6044 浏览

python - 有什么方法可以为每个蜘蛛使用单独的scrapy管道吗？

我想获取不同域下的网页，这意味着我必须在命令“scrapy crawl myspider”下使用不同的蜘蛛。但是，由于网页的内容不同，我必须使用不同的管道逻辑将数据放入数据库。但是对于每个蜘蛛来说，它们都必须经过 settings.py 中定义的所有管道。还有其他优雅的方法可以为每个蜘蛛使用单独的管道吗？

python web-scraping scrapy scrapy-spider

2013-06-29T14:29:56.337

0 投票

1 回答

8080 浏览

python - 如何在scrapy spider的start_urls中发送post数据

我想抓取一个只支持发布数据的网站。我想在所有请求的发布数据中发送查询参数。如何做到这一点？

python web-scraping scrapy scrapy-spider

2013-07-12T22:36:05.360

0 投票

1 回答

165 浏览

python - 无法在 Scrapy 中关注链接

我现在开始使用 Scrapy，我知道如何从运动页面（足球运动员的姓名和球队）获取我想要的内容，但我需要按照链接搜索更多球队，每个球队页面都有一个链接到玩家页面，网站链接的结构是：

球队页面：http ://esporte.uol.com.br/futebol/clubes/vitoria/ 球员页面：http ://esporte.uol.com.br/futebol/clubes/vitoria/jogadores/

我已经阅读了一些 Scrapy 教程，我在想团队页面我必须关注链接并且不解析任何内容，而玩家页面我必须不关注并解析玩家，我不知道我是否'我对这个想法和语法错误，如果我的跟随想法是错误的，欢迎任何帮助。

这是我的代码：

python python-2.7 scrapy web-crawler scrapy-spider

2013-09-19T19:07:34.910

0 投票

2 回答

3105 浏览

python - 如何通过外部脚本让爬虫用scrapy返回数据？

当我执行这样的脚本时，如何查看蜘蛛的解析函数的返回数据？

我禁用日志以查看蜘蛛中的打印消息，但启用日志后，返回数据也不会显示。

蜘蛛解析函数的代码返回一个简单的字符串。

我如何获得这些数据？我尝试打印“reactor.run”结果，但总是“无”

python web-scraping scrapy twisted scrapy-spider

2013-09-25T11:37:59.360

0 投票

1 回答

1349 浏览

python - scrapy 没有抓取所有链接

我想从http://community.sellfree.co.kr/中提取数据。Scrapy 正在工作，但它似乎只抓取start_urls，并且不抓取任何链接。

我希望蜘蛛抓取整个网站。

以下是我的代码：

页面上有两种链接。一个是onclick="location='../bbs/board.php?bo_table=maket_5_3'另一个是<a href="../bbs/board.php?bo_table=maket_5_1&sca=프로그램/솔루션"><span class="list2">solution</span></a>

如何让爬虫跟踪这两种链接？

python web-crawler scrapy scrapy-spider

2014-02-01T13:46:51.673

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapy-spider]

Reference