python - Python 网页脚本

Question

我以前想为一些网站这样做，但不知道从哪里开始。不过这一次我很坚决。我说的是我们抓取网站并提取所需数据的脚本。我的目标是：基本上我必须在 12 月参加工作面试。有这个网站（http://www.geeksforgeeks.org/），其中包含大量以前采访的问题（如http://www.geeksforgeeks.org/amazon-interview-set-42-on-campus/ & http://www.geeksforgeeks.org/adobe-interview-set-6-campus-mts-1/）。每个标题都有单词“set”和一个数字。跟踪我做了什么和没有做什么是很麻烦的。所以我想从这些页面中提取问题并将它们放在带有标题的pdf中。如何使用 curl、regex 和 Scrapy 做到这一点？我在 C/C++/Java 方面处于中级水平，但对 Python 仅有初级水平。任何帮助深表感谢。还请指出您所知道的任何此类脚本。我想自己做这件事。只需要一个起点和一些指导。谢谢。

score 3 · Accepted Answer

如果您只是一个起点，请尝试scrapy使用 python 的屏幕抓取库。我建议您使用该requests库来提出请求。这是迄今为止最简单的选择（没有断电）。

另外，不要尝试使用正则表达式解析 html 或 xml。只是不要。使用可用的优秀库之一（beautifulsoup 或 lxml，或带有 beautifulsoup 后端的 lxml 是最受欢迎的，但还有其他的）。

python - Python 网页脚本

1 回答 1

Related

Reference