python - Python网络抓取 - 下载文件并将所有数据存储在xml中

Question

我希望使用 Python 从我大学的 Intranet 中抓取一些数据并下载所有研究论文。我以前看过 Python 抓取，但我自己并没有真正做过任何事情我确定我在某处读过 Python 抓取框架，我应该使用它吗？

所以本质上这是我需要刮的：

然后，我会将所有这些都放在 xml 或数据库中，很可能是 xml，然后在以后开发接口等。

这是可行的吗？关于我应该从哪里开始的任何想法？

提前致谢， LukeJenx

编辑：框架是 Scrapy

编辑：原来我今天差点杀死服务器，所以讲师正在为我从网络团队获取副本......谢谢！

score 2 · Accepted Answer

Scrapy 是一个很棒的框架，并且有非常好的文档。你应该从那里开始。

如果您不了解XPaths，如果您打算使用 Scrapy，我建议您学习它们（它们非常简单！）。XPath 可帮助您“定位”要提取的 html 中的特定元素。

Scrapy 已经有一个内置的命令行参数可以导出到 xml、csv 等，即scrapy crawl <spidername> -o <filename> -t xml

机械化是轻松编写刮板的另一个不错的选择。

score 1 · Accepted Answer

是的，这是非常可行的，尽管这在很大程度上取决于页面。正如评论中所暗示的，一个 JS-heavy 的网站可能会让这变得非常困难。

除此之外，下载使用标准urllib2，或查看请求以获得更轻松、更少痛苦的体验。

但是，最好不要使用正则表达式来解析 HTML，它可能会导致无尽的尖叫。不过说真的，试试BeautifulSoup - 它功能强大且非常高级。

对于存储，以最简单的为准（对我来说，XML 似乎有点过分，也许考虑一下json库）。

2 回答 2