python - Python 谷歌网络爬虫

Question

我正在做一个需要在互联网上进行搜索的项目（即堆栈溢出）。从搜索到 XML 文件的爬虫检索所有相关结果（URL、文本、图像路径）。我正在用python构建它。有人对我应该如何解决这个问题有任何建议吗？我不想扫描整个网络，只想查看相关结果（stackoverflow，2013 年 10 月 8 日，以 python 为例）

score 0 · Accepted Answer

对于stackoverflow，您可以直接使用api

例如： https ://api.stackexchange.com/2.1/questions?fromdate=1381190400&todate=1381276800&order=desc&sort=activity&tagged=python&site=stackoverflow

见https://api.stackexchange.com/docs/questions#fromdate=2013-10-08&todate=2013-10-09&order=desc&sort=activity&tagged=python&filter=default&site=stackoverflow

你不能每秒发出超过 30 个请求，请参阅http://api.stackexchange.com/docs/throttle

score 0 · Accepted Answer

听起来你可以使用 BeautifulSoup。并查看此线程，这听起来像是您需要的。使用 BeautifulSoup 创建 XML 文档：StackOverFlow

至于下载和使用 BeautifulSoup，网站在这里

使用起来非常简单。希望这可以帮助。

python - Python 谷歌网络爬虫

2 回答 2

Related

Reference