“scrapy”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

959 浏览

python - python抓取包指南

我还是 python 的新手，所以我希望这个问题不是空洞的。

我在谷歌上搜索网络抓取解决方案的次数越多，我就越困惑（尽管调查了许多树木，但看不到森林……）

我一直在阅读许多项目的文档，包括（但不限于）scrapy mechanize spynner

但我真的不知道我应该尝试使用哪个锤子..

我正在尝试抓取一个特定页面（www.schooldigger.com）它使用asp，并且我需要能够模拟一些java脚本。

我知道这类问题不容易处理，所以我希望得到任何指导。

除了对可用选项（以及不同项目之间的关系，如果可能的话）的一些一般性讨论之外，我还有几个具体问题

使用scrapy时，有什么方法可以避免定义要解析的“项目”，而只下载前几百页左右？我实际上并不想下载整个网站，但是，我希望能够在开发爬虫时查看正在下载哪些页面。
mechanize、asp 和 javascript，请查看我发布但没有看到任何答案的问题， https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
为什么不构建某种实用程序（涡轮齿轮应用程序或浏览器插件）允许用户选择要遵循的链接和以图形方式解析的项目？我所建议的只是某种围绕解析 API 的 gui。我不知道我是否具备创建这样一个项目的技术知识，但我不明白为什么不可能，事实上，考虑到我对 python 的了解，这似乎相当可行。也许一些关于这类项目将面临什么问题的反馈？
最重要的是，所有网络爬虫都是“特定于站点”构建的吗？在我看来，我有点在我的代码中重新发明轮子..（但这可能是因为我不太擅长编程）
有人有功能齐全的刮刀的例子吗？文档中有很多示例（我一直在研究），但它们似乎都专注于简单性，只是为了说明包的使用，也许我会从更详细/更复杂的示例中受益。

谢谢你的想法。

2010-11-24T18:59:03.907

0 投票

2 回答

1208 浏览

python - Scrapy Django Limit links crawled

I just got scrapy setup and running and it works great, but I have two (noob) questions. I should say first that I am totally new to scrapy and spidering sites.

Can you limit the number of links crawled? I have a site that doesn't use pagination and just lists a lot of links (which I crawl) on their home page. I feel bad crawling all of those links when I really just need to crawl the first 10 or so.
How do you run multiple spiders at once? Right now I am using the command scrapy crawl example.com, but I also have spiders for example2.com and example3.com. I would like to run all of my spiders using one command. Is this possible?

python django scrapy

2010-11-24T19:15:04.260

0 投票

8 回答

10137 浏览

python - 在 Scrapy 中访问 django 模型

是否可以在 Scrapy 管道中访问我的 django 模型，以便我可以将抓取的数据直接保存到我的模型中？

我看过这个，但我真的不明白如何设置它？

python django django-models scrapy

2010-11-24T22:09:42.543

0 投票

6 回答

25351 浏览

python - 初学者学习 Python 屏幕抓取的最佳方法

这可能是难以回答的问题之一，但这里有：

我不认为自己是程序员——但我想 :-) 我学过 R，因为我厌倦了 spss，而且因为一个朋友向我介绍了这门语言——所以我对编程逻辑。

现在我想学习python——主要是为了做屏幕抓取和文本分析，也为了用 Pylons 或 Django 编写 webapps。

那么：我应该如何学习使用 python 进行屏幕抓取？我开始浏览杂乱无章的文档，但我觉得有很多“魔法”正在发生——毕竟——我正在努力学习，而不仅仅是做。

另一方面：没有理由重新发明轮子，如果 Scrapy 是屏幕抓取 Django 对网页的意义，那么它可能值得直接跳入 Scrapy。你怎么看？

哦 - 顺便说一句：屏幕抓取的那种：我想抓取报纸网站（即相当复杂和大）以提及政治家等 - 这意味着我需要每天，增量和递归地抓取 - 我需要记录结果进入各种数据库——这让我想到了一个额外的问题：每个人都在谈论非 SQL 数据库。我应该立即学习使用例如 mongoDB（我认为我不需要强一致性），还是对于我想做的事情来说这很愚蠢？

感谢您的任何想法 - 如果这通常被视为编程问题，我深表歉意。

python screen-scraping beautifulsoup lxml scrapy

2010-12-01T19:31:56.867

0 投票

4 回答

28611 浏览

python - 强迫我的爬虫停止爬行

如果条件为真（如 scrap_item_id == predefine_value ），是否有机会停止抓取。我的问题类似于Scrapy - 如何识别已经刮掉的网址，但我想在发现最后一个刮掉的项目后“强制”我的刮板蜘蛛停止爬行。

python scrapy

2010-12-15T10:05:21.433

0 投票

3 回答

1548 浏览

python - Scrapy新手问题-无法使教程文件正常工作

我是 Python 和 Scrapy 的新手，所以我开始尝试复制本教程。我正在尝试按照教程抓取 www.dmoz.org 网站。

我编写 dmoz_spider.py 如下所示

而我应该通过网站获得的是不同的东西。
知道我在搞砸什么吗？

python scrapy

2010-12-16T23:47:04.933

0 投票

1 回答

3086 浏览

xpath - 如何将不区分大小写的值与 XPath 匹配

我有一个 XPath，我试图用它来匹配具有 name 属性的元标记，其值包含单词“keyword”，无论大小写如何。基本上，我正在尝试匹配：

使用 XPath

我正在使用 Scrapy，它是内置的选择器，但是当我尝试这个 XPath 时，我收到一个错误“Invalid XPath:...”。我做错了什么，做我想做的事情的正确方法是什么？

xpath scrapy

2011-01-04T19:47:04.670

0 投票

2 回答

3225 浏览

django - 使用 Django 构建搜索引擎的建议

我是网络爬虫的新手。我将构建一个搜索引擎，让爬虫保存 Rapidshare 链接，包括 Rapidshare 链接找到的 URL……

换句话说，我要建立一个类似的网站filestube.com

经过一番搜索，我发现Scrapy可以与 Django 一起使用。我试图找到关于 nutch 与 Django 的集成，但什么也没找到

我希望你能给我建立这种网站的建议……尤其是爬虫

django search-engine nutch scrapy

2011-01-07T15:05:31.787

0 投票

2 回答

2521 浏览

web-scraping - python-scrapy：如何在蜘蛛内部获取 URL（不是通过以下链接）？

我怎样才能在我的蜘蛛内部获取一些 URL 以通过 HtmlXPathSelector 从页面中提取某些内容？但是 URL 是我想在代码中作为字符串提供的东西，而不是要遵循的链接。

我试过这样的事情：

但此时它会引发异常：

web-scraping scrapy

2011-01-09T18:05:08.327

0 投票

9 回答

67399 浏览

python - Scrapy 和代理

你如何在 python 网络抓取框架 Scrapy 中使用代理支持？

python scrapy

2011-01-17T06:17:01.787

问题标签 [scrapy]

Reference