我正在做一个需要在互联网上进行搜索的项目(即堆栈溢出)。从搜索到 XML 文件的爬虫检索所有相关结果(URL、文本、图像路径)。我正在用python构建它。有人对我应该如何解决这个问题有任何建议吗?我不想扫描整个网络,只想查看相关结果(stackoverflow,2013 年 10 月 8 日,以 python 为例)
问问题
568 次
2 回答
0
对于stackoverflow,您可以直接使用api
你不能每秒发出超过 30 个请求,请参阅http://api.stackexchange.com/docs/throttle
于 2013-10-08T17:28:11.837 回答
0
听起来你可以使用 BeautifulSoup。并查看此线程,这听起来像是您需要的。使用 BeautifulSoup 创建 XML 文档:StackOverFlow
至于下载和使用 BeautifulSoup,网站在这里
使用起来非常简单。希望这可以帮助。
于 2013-10-08T17:28:19.250 回答