问题标签 [scrapy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
841 浏览

python - Scrapy web scraper 无法抓取链接

我对 Scrapy 很陌生。在这里我的蜘蛛要爬twistedweb。

当我运行时 scrapy-ctl.py crawl twistedweb3,它只获取。

获取index.html内容,我尝试使用SgmlLinkExtractor,它按我的预期提取链接,但无法遵循这些链接。

你能告诉我哪里出错了吗?

假设我想获取 css、javascript 文件。我如何实现这一目标?我的意思是获得完整的网站?

0 投票
2 回答
5696 浏览

python - 如何使用 Scrapy

我想知道如何启动基于 Scrapy 的爬虫。我通过 apt-get install 安装了该工具,并尝试运行一个示例:

我从 spiders/google_directory.py 中破解了代码,但它似乎没有被执行,因为我没有看到我插入的任何打印。我阅读了他们的文档,但没有发现与此相关的内容;你有什么想法?

另外,如果您认为我应该使用其他工具来抓取网站,请告诉我。我没有使用 Python 工具的经验,Python 是必须的。

谢谢!

0 投票
1 回答
1070 浏览

python - 如何使用 cxfreeze 打包一个 scrapy 项目?

我有一个scrapy项目,我想为使用windows的客户打包在一起,而不必为他们手动安装依赖项。我遇到了 cxfreeze,但我不太确定它如何与 scrapy 项目一起使用。

我想我会制作某种界面并使用'from scrapy.cmdline import execute'运行scrapy爬虫,但我不确定。

提前感谢您的帮助。

0 投票
6 回答
18503 浏览

virtualenv - 如何在 virtualenv 中安装 libxml2?

我有带选项的virtualenv 。--no-site-packages我在里面使用scrapy。Scrapy通过. _ import libxml2如何使用pipor在 vi​​rtualenv 中安装 libxml2 easy_install

0 投票
5 回答
9523 浏览

python - Scrapy - 如何识别已经抓取的网址

我每天都使用scrapy来抓取一个新闻网站。我如何限制 scrapy 抓取已抓取的 URL。上是否有任何明确的文档或示例SgmlLinkExtractor

0 投票
1 回答
246 浏览

python - 如何将 python 用于 Web 服务

我对python真的很陌生,只是玩弄了用于抓取网站和提取数据的scrapy框架。

我的问题是,如何将参数传递给在线某处托管的 python 脚本。

例如,我提出以下请求mysite.net/rest/index.py

现在我想传递一些类似于 php 的参数,比如 *.php?id=...

0 投票
4 回答
8130 浏览

python - 通过 lambda 回调在 Scrapy spider 内部传递参数

你好,

我有这个简短的蜘蛛代码:

我希望输出是这样的:

,但是,实际输出是这样的:

所以,我传入的争论在callback=lambda r:self.parse2(r, i)某种程度上是错误的。

代码有什么问题?

0 投票
1 回答
1388 浏览

python - 使用 Scrapy 发送此 FormRequest 后,Web 服务器返回“500 内部服务器错误”

我根据 httpFox(Firefox addon) 的内容构造了下面的 FormRequest。但是,Web 服务器总是返回“500 Internal Server Error”。

有人可以帮我吗?

原网址为: http ://www.intel.com/jobs/jobsearch/index_ne.htm?Location=200000008

这是我的蜘蛛骨架:

0 投票
2 回答
7517 浏览

python - 无法让 Scrapy 管道工作

我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到了一些麻烦。我的 pipelines.py 中有以下代码:

我的 CrawlSpider 子类有这条线来激活这个类的管道。

但是,当我使用它运行它时

我得到一条线,上面写着

没有管道(我认为这是日志记录应该输出它们的地方)。

我尝试过查看文档,但似乎没有任何完整项目的完整示例来查看我是否遗漏了任何内容。

关于下一步尝试什么的任何建议?或在哪里寻找进一步的文件?

0 投票
2 回答
7156 浏览

python - Scrapy管道spider_opened和spider_closed没有被调用

我在使用scrapy管道时遇到了一些麻烦。我的信息正在从网站上抓取,并且 process_item 方法被正确调用。但是没有调用 spider_opened 和 spider_closed 方法。

__init__和日志消息都process_item显示在日志中,但spider_openspider_close日志消息不显示。

我需要使用 spider_opened 和 spider_closed 方法,因为我想使用它们来打开和关闭与数据库的连接,但它们的日志中没有显示任何内容。

如果有人有任何建议,那将非常有用。