我还是 python 的新手,所以我希望这个问题不是空洞的。
我在谷歌上搜索网络抓取解决方案的次数越多,我就越困惑(尽管调查了许多树木,但看不到森林……)
我一直在阅读许多项目的文档,包括(但不限于)scrapy mechanize spynner
但我真的不知道我应该尝试使用哪个锤子..
我正在尝试抓取一个特定页面(www.schooldigger.com)它使用asp,并且我需要能够模拟一些java脚本。
我知道这类问题不容易处理,所以我希望得到任何指导。
除了对可用选项(以及不同项目之间的关系,如果可能的话)的一些一般性讨论之外,我还有几个具体问题
使用scrapy时,有什么方法可以避免定义要解析的“项目”,而只下载前几百页左右?我实际上并不想下载整个网站,但是,我希望能够在开发爬虫时查看正在下载哪些页面。
mechanize、asp 和 javascript,请查看我发布但没有看到任何答案的问题, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
为什么不构建某种实用程序(涡轮齿轮应用程序或浏览器插件)允许用户选择要遵循的链接和以图形方式解析的项目?我所建议的只是某种围绕解析 API 的 gui。我不知道我是否具备创建这样一个项目的技术知识,但我不明白为什么不可能,事实上,考虑到我对 python 的了解,这似乎相当可行。也许一些关于这类项目将面临什么问题的反馈?
最重要的是,所有网络爬虫都是“特定于站点”构建的吗?在我看来,我有点在我的代码中重新发明轮子..(但这可能是因为我不太擅长编程)
有人有功能齐全的刮刀的例子吗?文档中有很多示例(我一直在研究),但它们似乎都专注于简单性,只是为了说明包的使用,也许我会从更详细/更复杂的示例中受益。
谢谢你的想法。