这可能是难以回答的问题之一,但这里有:
我不认为自己是程序员——但我想 :-) 我学过 R,因为我厌倦了 spss,而且因为一个朋友向我介绍了这门语言——所以我对编程逻辑。
现在我想学习python——主要是为了做屏幕抓取和文本分析,也为了用 Pylons 或 Django 编写 webapps。
那么:我应该如何学习使用 python 进行屏幕抓取?我开始浏览杂乱无章的文档,但我觉得有很多“魔法”正在发生——毕竟——我正在努力学习,而不仅仅是做。
另一方面:没有理由重新发明轮子,如果 Scrapy 是屏幕抓取 Django 对网页的意义,那么它可能值得直接跳入 Scrapy。你怎么看?
哦 - 顺便说一句:屏幕抓取的那种:我想抓取报纸网站(即相当复杂和大)以提及政治家等 - 这意味着我需要每天,增量和递归地抓取 - 我需要记录结果进入各种数据库——这让我想到了一个额外的问题:每个人都在谈论非 SQL 数据库。我应该立即学习使用例如 mongoDB(我认为我不需要强一致性),还是对于我想做的事情来说这很愚蠢?
感谢您的任何想法 - 如果这通常被视为编程问题,我深表歉意。