2

我希望使用 Python 从我大学的 Intranet 中抓取一些数据并下载所有研究论文。我以前看过 Python 抓取,但我自己并没有真正做过任何事情我确定我在某处读过 Python 抓取框架,我应该使用它吗?

所以本质上这是我需要刮的:

  1. 作者
  2. 描述
  3. 场地
  4. 然后下载文件并用论文名称重命名。

然后,我会将所有这些都放在 xml 或数据库中,很可能是 xml,然后在以后开发接口等。

这是可行的吗?关于我应该从哪里开始的任何想法?

提前致谢, LukeJenx

编辑:框架是 Scrapy

编辑:原来我今天差点杀死服务器,所以讲师正在为我从网络团队获取副本......谢谢!

4

2 回答 2

2

Scrapy 是一个很棒的框架,并且有非常好的文档。你应该从那里开始。

如果您不了解XPaths,如果您打算使用 Scrapy,我建议您学习它们(它们非常简单!)。XPath 可帮助您“定位”要提取的 html 中的特定元素。

Scrapy 已经有一个内置的命令行参数可以导出到 xml、csv 等,即scrapy crawl <spidername> -o <filename> -t xml

机械化是轻松编写刮板的另一个不错的选择。

于 2012-10-23T20:38:06.160 回答
1

是的,这是非常可行的,尽管这在很大程度上取决于页面。正如评论中所暗示的,一个 JS-heavy 的网站可能会让这变得非常困难。

除此之外,下载使用标准urllib2,或查看请求以获得更轻松、更少痛苦的体验。

但是,最好不要使用正则表达式来解析 HTML,它可能会导致无尽的尖叫。不过说真的,试试BeautifulSoup - 它功能强大且非常高级。

对于存储,以最简单的为准(对我来说,XML 似乎有点过分,也许考虑一下json库)。

于 2012-10-23T20:08:44.167 回答