问题标签 [scrapy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy web scraper 无法抓取链接
我对 Scrapy 很陌生。在这里我的蜘蛛要爬twistedweb。
当我运行时 scrapy-ctl.py crawl twistedweb3
,它只获取。
获取index.html
内容,我尝试使用SgmlLinkExtractor
,它按我的预期提取链接,但无法遵循这些链接。
你能告诉我哪里出错了吗?
假设我想获取 css、javascript 文件。我如何实现这一目标?我的意思是获得完整的网站?
python - 如何使用 Scrapy
我想知道如何启动基于 Scrapy 的爬虫。我通过 apt-get install 安装了该工具,并尝试运行一个示例:
我从 spiders/google_directory.py 中破解了代码,但它似乎没有被执行,因为我没有看到我插入的任何打印。我阅读了他们的文档,但没有发现与此相关的内容;你有什么想法?
另外,如果您认为我应该使用其他工具来抓取网站,请告诉我。我没有使用 Python 工具的经验,Python 是必须的。
谢谢!
python - 如何使用 cxfreeze 打包一个 scrapy 项目?
我有一个scrapy项目,我想为使用windows的客户打包在一起,而不必为他们手动安装依赖项。我遇到了 cxfreeze,但我不太确定它如何与 scrapy 项目一起使用。
我想我会制作某种界面并使用'from scrapy.cmdline import execute'运行scrapy爬虫,但我不确定。
提前感谢您的帮助。
virtualenv - 如何在 virtualenv 中安装 libxml2?
我有带选项的virtualenv 。--no-site-packages
我在里面使用scrapy。Scrapy通过. _ import libxml2
如何使用pip
or在 virtualenv 中安装 libxml2 easy_install
?
python - Scrapy - 如何识别已经抓取的网址
我每天都使用scrapy来抓取一个新闻网站。我如何限制 scrapy 抓取已抓取的 URL。上是否有任何明确的文档或示例SgmlLinkExtractor
。
python - 如何将 python 用于 Web 服务
我对python真的很陌生,只是玩弄了用于抓取网站和提取数据的scrapy框架。
我的问题是,如何将参数传递给在线某处托管的 python 脚本。
例如,我提出以下请求mysite.net/rest/index.py
现在我想传递一些类似于 php 的参数,比如 *.php?id=...
python - 通过 lambda 回调在 Scrapy spider 内部传递参数
你好,
我有这个简短的蜘蛛代码:
我希望输出是这样的:
,但是,实际输出是这样的:
所以,我传入的争论在callback=lambda r:self.parse2(r, i)
某种程度上是错误的。
代码有什么问题?
python - 使用 Scrapy 发送此 FormRequest 后,Web 服务器返回“500 内部服务器错误”
我根据 httpFox(Firefox addon) 的内容构造了下面的 FormRequest。但是,Web 服务器总是返回“500 Internal Server Error”。
有人可以帮我吗?
原网址为: http ://www.intel.com/jobs/jobsearch/index_ne.htm?Location=200000008
这是我的蜘蛛骨架:
python - 无法让 Scrapy 管道工作
我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到了一些麻烦。我的 pipelines.py 中有以下代码:
我的 CrawlSpider 子类有这条线来激活这个类的管道。
但是,当我使用它运行它时
我得到一条线,上面写着
没有管道(我认为这是日志记录应该输出它们的地方)。
我尝试过查看文档,但似乎没有任何完整项目的完整示例来查看我是否遗漏了任何内容。
关于下一步尝试什么的任何建议?或在哪里寻找进一步的文件?
python - Scrapy管道spider_opened和spider_closed没有被调用
我在使用scrapy管道时遇到了一些麻烦。我的信息正在从网站上抓取,并且 process_item 方法被正确调用。但是没有调用 spider_opened 和 spider_closed 方法。
__init__
和日志消息都process_item
显示在日志中,但spider_open
和spider_close
日志消息不显示。
我需要使用 spider_opened 和 spider_closed 方法,因为我想使用它们来打开和关闭与数据库的连接,但它们的日志中没有显示任何内容。
如果有人有任何建议,那将非常有用。