0

我以前想为一些网站这样做,但不知道从哪里开始。不过这一次我很坚决。我说的是我们抓取网站并提取所需数据的脚本。我的目标是:基本上我必须在 12 月参加工作面试。有这个网站(http://www.geeksforgeeks.org/),其中包含大量以前采访的问题(如http://www.geeksforgeeks.org/amazon-interview-set-42-on-campus/ & http://www.geeksforgeeks.org/adobe-interview-set-6-campus-mts-1/)。每个标题都有单词“set”和一个数字。跟踪我做了什么和没有做什么是很麻烦的。所以我想从这些页面中提取问题并将它们放在带有标题的pdf中。如何使用 curl、regex 和 Scrapy 做到这一点?我在 C/C++/Java 方面处于中级水平,但对 Python 仅有初级水平。任何帮助深表感谢。还请指出您所知道的任何此类脚本。我想自己做这件事。只需要一个起点和一些指导。谢谢。

4

1 回答 1

3

如果您只是一个起点,请尝试scrapy使用 python 的屏幕抓取库。我建议您使用该requests库来提出请求。这是迄今为止最简单的选择(没有断电)。

另外,不要尝试使用正则表达式解析 html 或 xml。只是不要。使用可用的优秀库之一(beautifulsoup 或 lxml,或带有 beautifulsoup 后端的 lxml 是最受欢迎的,但还有其他的)。

于 2013-09-11T17:54:35.453 回答