问题标签 [scrapy]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

16478 问题

0 投票

1 回答

841 浏览

python - Scrapy web scraper 无法抓取链接

我对 Scrapy 很陌生。在这里我的蜘蛛要爬twistedweb。

当我运行时 scrapy-ctl.py crawl twistedweb3，它只获取。

获取index.html内容，我尝试使用SgmlLinkExtractor，它按我的预期提取链接，但无法遵循这些链接。

你能告诉我哪里出错了吗？

假设我想获取 css、javascript 文件。我如何实现这一目标？我的意思是获得完整的网站？

2010-08-19T02:35:33.767

0 投票

2 回答

5696 浏览

python - 如何使用 Scrapy

我想知道如何启动基于 Scrapy 的爬虫。我通过 apt-get install 安装了该工具，并尝试运行一个示例：

我从 spiders/google_directory.py 中破解了代码，但它似乎没有被执行，因为我没有看到我插入的任何打印。我阅读了他们的文档，但没有发现与此相关的内容；你有什么想法？

另外，如果您认为我应该使用其他工具来抓取网站，请告诉我。我没有使用 Python 工具的经验，Python 是必须的。

谢谢！

python web-crawler scrapy

2010-09-22T19:46:14.470

0 投票

1 回答

1070 浏览

python - 如何使用 cxfreeze 打包一个 scrapy 项目？

我有一个scrapy项目，我想为使用windows的客户打包在一起，而不必为他们手动安装依赖项。我遇到了 cxfreeze，但我不太确定它如何与 scrapy 项目一起使用。

我想我会制作某种界面并使用'from scrapy.cmdline import execute'运行scrapy爬虫，但我不确定。

提前感谢您的帮助。

python screen-scraping py2exe scrapy

2010-09-24T20:02:12.667

0 投票

6 回答

18503 浏览

virtualenv - 如何在 virtualenv 中安装 libxml2？

我有带选项的virtualenv 。--no-site-packages我在里面使用scrapy。Scrapy通过. _ import libxml2如何使用pipor在 virtualenv 中安装 libxml2 easy_install？

virtualenv easy-install pip scrapy

2010-10-04T15:03:09.340

0 投票

5 回答

9523 浏览

python - Scrapy - 如何识别已经抓取的网址

我每天都使用scrapy来抓取一个新闻网站。我如何限制 scrapy 抓取已抓取的 URL。上是否有任何明确的文档或示例SgmlLinkExtractor。

python web-crawler scrapy

2010-10-06T10:38:32.890

0 投票

1 回答

246 浏览

python - 如何将 python 用于 Web 服务

我对python真的很陌生，只是玩弄了用于抓取网站和提取数据的scrapy框架。

我的问题是，如何将参数传递给在线某处托管的 python 脚本。

例如，我提出以下请求mysite.net/rest/index.py

现在我想传递一些类似于 php 的参数，比如 *.php?id=...

python web-services parameters scrapy

2010-10-06T16:00:14.887

0 投票

4 回答

8130 浏览

python - 通过 lambda 回调在 Scrapy spider 内部传递参数

你好，

我有这个简短的蜘蛛代码：

我希望输出是这样的：

，但是，实际输出是这样的：

所以，我传入的争论在callback=lambda r:self.parse2(r, i)某种程度上是错误的。

代码有什么问题？

python lambda scrapy

2010-10-08T05:38:31.560

0 投票

1 回答

1388 浏览

python - 使用 Scrapy 发送此 FormRequest 后，Web 服务器返回“500 内部服务器错误”

我根据 httpFox(Firefox addon) 的内容构造了下面的 FormRequest。但是，Web 服务器总是返回“500 Internal Server Error”。

有人可以帮我吗？

原网址为： http ://www.intel.com/jobs/jobsearch/index_ne.htm?Location=200000008

这是我的蜘蛛骨架：

python scrapy

2010-10-24T13:19:51.587

0 投票

2 回答

7517 浏览

python - 无法让 Scrapy 管道工作

我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到了一些麻烦。我的 pipelines.py 中有以下代码：

我的 CrawlSpider 子类有这条线来激活这个类的管道。

但是，当我使用它运行它时

我得到一条线，上面写着

没有管道（我认为这是日志记录应该输出它们的地方）。

我尝试过查看文档，但似乎没有任何完整项目的完整示例来查看我是否遗漏了任何内容。

关于下一步尝试什么的任何建议？或在哪里寻找进一步的文件？

python web-crawler pipeline scrapy scraper

2010-11-03T19:21:10.900

0 投票

2 回答

7156 浏览

python - Scrapy管道spider_opened和spider_closed没有被调用

我在使用scrapy管道时遇到了一些麻烦。我的信息正在从网站上抓取，并且 process_item 方法被正确调用。但是没有调用 spider_opened 和 spider_closed 方法。

__init__和日志消息都process_item显示在日志中，但spider_open和spider_close日志消息不显示。

我需要使用 spider_opened 和 spider_closed 方法，因为我想使用它们来打开和关闭与数据库的连接，但它们的日志中没有显示任何内容。

如果有人有任何建议，那将非常有用。

python pipeline scrapy

2010-11-06T13:29:32.967

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapy]

Reference