我希望使用 Python 从我大学的 Intranet 中抓取一些数据并下载所有研究论文。我以前看过 Python 抓取,但我自己并没有真正做过任何事情我确定我在某处读过 Python 抓取框架,我应该使用它吗?
所以本质上这是我需要刮的:
- 作者
- 描述
- 场地
- 然后下载文件并用论文名称重命名。
然后,我会将所有这些都放在 xml 或数据库中,很可能是 xml,然后在以后开发接口等。
这是可行的吗?关于我应该从哪里开始的任何想法?
提前致谢, LukeJenx
编辑:框架是 Scrapy
编辑:原来我今天差点杀死服务器,所以讲师正在为我从网络团队获取副本......谢谢!