问题标签 [scrapy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
959 浏览

python - python抓取包指南

我还是 python 的新手,所以我希望这个问题不是空洞的。

我在谷歌上搜索网络抓取解决方案的次数越多,我就越困惑(尽管调查了许多树木,但看不到森林……)

我一直在阅读许多项目的文档,包括(但不限于)scrapy mechanize spynner

但我真的不知道我应该尝试使用哪个锤子..

我正在尝试抓取一个特定页面(www.schooldigger.com)它使用asp,并且我需要能够模拟一些java脚本。

我知道这类问题不容易处理,所以我希望得到任何指导。

除了对可用选项(以及不同项目之间的关系,如果可能的话)的一些一般性讨论之外,我还有几个具体问题

  1. 使用scrapy时,有什么方法可以避免定义要解析的“项目”,而只下载前几百页左右?我实际上并不想下载整个网站,但是,我希望能够在开发爬虫时查看正在下载哪些页面。

  2. mechanize、asp 和 javascript,请查看我发布但没有看到任何答案的问题, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. 为什么不构建某种实用程序(涡轮齿轮应用程序或浏览器插件)允许用户选择要遵循的链接和以图形方式解析的项目?我所建议的只是某种围绕解析 API 的 gui。我不知道我是否具备创建这样一个项目的技术知识,但我不明白为什么不可能,事实上,考虑到我对 python 的了解,这似乎相当可行。也许一些关于这类项目将面临什么问题的反馈?

  4. 最重要的是,所有网络爬虫都是“特定于站点”构建的吗?在我看来,我有点在我的代码中重新发明轮子..(但这可能是因为我不太擅长编程)

  5. 有人有功能齐全的刮刀的例子吗?文档中有很多示例(我一直在研究),但它们似乎都专注于简单性,只是为了说明包的使用,也许我会从更详细/更复杂的示例中受益。

谢谢你的想法。

0 投票
2 回答
1208 浏览

python - Scrapy Django Limit links crawled

I just got scrapy setup and running and it works great, but I have two (noob) questions. I should say first that I am totally new to scrapy and spidering sites.

  1. Can you limit the number of links crawled? I have a site that doesn't use pagination and just lists a lot of links (which I crawl) on their home page. I feel bad crawling all of those links when I really just need to crawl the first 10 or so.

  2. How do you run multiple spiders at once? Right now I am using the command scrapy crawl example.com, but I also have spiders for example2.com and example3.com. I would like to run all of my spiders using one command. Is this possible?

0 投票
8 回答
10137 浏览

python - 在 Scrapy 中访问 django 模型

是否可以在 Scrapy 管道中访问我的 django 模型,以便我可以将抓取的数据直接保存到我的模型中?

我看过这个,但我真的不明白如何设置它?

0 投票
6 回答
25351 浏览

python - 初学者学习 Python 屏幕抓取的最佳方法

这可能是难以回答的问题之一,但这里有:

我不认为自己是程序员——但我想 :-) 我学过 R,因为我厌倦了 spss,而且因为一个朋友向我介绍了这门语言——所以我对编程逻辑。

现在我想学习python——主要是为了做屏幕抓取和文本分析,也为了用 Pylons 或 Django 编写 webapps。

那么:我应该如何学习使用 python 进行屏幕抓取?我开始浏览杂乱无章的文档,但我觉得有很多“魔法”正在发生——毕竟——我正在努力学习,而不仅仅是做。

另一方面:没有理由重新发明轮子,如果 Scrapy 是屏幕抓取 Django 对网页的意义,那么它可能值得直接跳入 Scrapy。你怎么看?

哦 - 顺便说一句:屏幕抓取的那种:我想抓取报纸网站(即相当复杂和大)以提及政治家等 - 这意味着我需要每天,增量和递归地抓取 - 我需要记录结果进入各种数据库——这让我想到了一个额外的问题:每个人都在谈论非 SQL 数据库。我应该立即学习使用例如 mongoDB(我认为我不需要强一致性),还是对于我想做的事情来说这很愚蠢?

感谢您的任何想法 - 如果这通常被视为编程问题,我深表歉意。

0 投票
4 回答
28611 浏览

python - 强迫我的爬虫停止爬行

如果条件为真(如 scrap_item_id == predefine_value ),是否有机会停止抓取。我的问题类似于Scrapy - 如何识别已经刮掉的网址,但我想在发现最后一个刮掉的项目后“强制”我的刮板蜘蛛停止爬行。

0 投票
3 回答
1548 浏览

python - Scrapy新手问题-无法使教程文件正常工作

我是 Python 和 Scrapy 的新手,所以我开始尝试复制本教程。我正在尝试按照教程抓取 www.dmoz.org 网站。

我编写 dmoz_spider.py 如下所示

而我应该通过网站获得的是不同的东西。
知道我在搞砸什么吗?

0 投票
1 回答
3086 浏览

xpath - 如何将不区分大小写的值与 XPath 匹配

我有一个 XPath,我试图用它来匹配具有 name 属性的元标记,其值包含单词“keyword”,无论大小写如何。基本上,我正在尝试匹配:

使用 XPath

我正在使用 Scrapy,它是内置的选择器,但是当我尝试这个 XPath 时,我收到一个错误“Invalid XPath:...”。我做错了什么,做我想做的事情的正确方法是什么?

0 投票
2 回答
3225 浏览

django - 使用 Django 构建搜索引擎的建议

我是网络爬虫的新手。我将构建一个搜索引擎,让爬虫保存 Rapidshare 链接,包括 Rapidshare 链接找到的 URL……

换句话说,我要建立一个类似的网站filestube.com

经过一番搜索,我发现Scrapy可以与 Django 一起使用。我试图找到关于 nutch 与 Django 的集成,但什么也没找到

我希望你能给我建立这种网站的建议……尤其是爬虫

0 投票
2 回答
2521 浏览

web-scraping - python-scrapy:如何在蜘蛛内部获取 URL(不是通过以下链接)?

我怎样才能在我的蜘蛛内部获取一些 URL 以通过 HtmlXPathSelector 从页面中提取某些内容?但是 URL 是我想在代码中作为字符串提供的东西,而不是要遵循的链接。

我试过这样的事情:

但此时它会引发异常:

0 投票
9 回答
67399 浏览

python - Scrapy 和代理

你如何在 python 网络抓取框架 Scrapy 中使用代理支持?