python - python抓取包指南

Question

我还是 python 的新手，所以我希望这个问题不是空洞的。

我在谷歌上搜索网络抓取解决方案的次数越多，我就越困惑（尽管调查了许多树木，但看不到森林……）

我一直在阅读许多项目的文档，包括（但不限于）scrapy mechanize spynner

但我真的不知道我应该尝试使用哪个锤子..

我正在尝试抓取一个特定页面（www.schooldigger.com）它使用asp，并且我需要能够模拟一些java脚本。

我知道这类问题不容易处理，所以我希望得到任何指导。

除了对可用选项（以及不同项目之间的关系，如果可能的话）的一些一般性讨论之外，我还有几个具体问题

使用scrapy时，有什么方法可以避免定义要解析的“项目”，而只下载前几百页左右？我实际上并不想下载整个网站，但是，我希望能够在开发爬虫时查看正在下载哪些页面。
mechanize、asp 和 javascript，请查看我发布但没有看到任何答案的问题， https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
为什么不构建某种实用程序（涡轮齿轮应用程序或浏览器插件）允许用户选择要遵循的链接和以图形方式解析的项目？我所建议的只是某种围绕解析 API 的 gui。我不知道我是否具备创建这样一个项目的技术知识，但我不明白为什么不可能，事实上，考虑到我对 python 的了解，这似乎相当可行。也许一些关于这类项目将面临什么问题的反馈？
最重要的是，所有网络爬虫都是“特定于站点”构建的吗？在我看来，我有点在我的代码中重新发明轮子..（但这可能是因为我不太擅长编程）
有人有功能齐全的刮刀的例子吗？文档中有很多示例（我一直在研究），但它们似乎都专注于简单性，只是为了说明包的使用，也许我会从更详细/更复杂的示例中受益。

谢谢你的想法。

score 2 · Accepted Answer

对于完整的浏览器交互，您最好查看使用Selenium-RC

它有一个 python 驱动程序，您可以编写浏览器脚本来“测试”互联网上的任何站点

1 回答 1