我以前想为一些网站这样做,但不知道从哪里开始。不过这一次我很坚决。我说的是我们抓取网站并提取所需数据的脚本。我的目标是:基本上我必须在 12 月参加工作面试。有这个网站(http://www.geeksforgeeks.org/),其中包含大量以前采访的问题(如http://www.geeksforgeeks.org/amazon-interview-set-42-on-campus/ & http://www.geeksforgeeks.org/adobe-interview-set-6-campus-mts-1/)。每个标题都有单词“set”和一个数字。跟踪我做了什么和没有做什么是很麻烦的。所以我想从这些页面中提取问题并将它们放在带有标题的pdf中。如何使用 curl、regex 和 Scrapy 做到这一点?我在 C/C++/Java 方面处于中级水平,但对 Python 仅有初级水平。任何帮助深表感谢。还请指出您所知道的任何此类脚本。我想自己做这件事。只需要一个起点和一些指导。谢谢。
问问题
187 次