我想编写一个程序来搜索一个相当大的网站并提取某些东西。我有几个在线 Python 课程,但都没有提到如何使用 Python 访问互联网。我不知道我应该从哪里开始。
user2201041
问问题
32961 次
3 回答
5
您必须首先阅读标准 python 库urllib2。
一旦你对这个库背后的基本想法感到满意,你就可以尝试更容易与 Web 交互的请求,尤其是 API。我建议将它与httpie并行使用,以从命令行快速和肮脏地测试查询。
如果您进一步构建一个库或引擎来抓取网络,您将需要某种异步编程,我建议从Gevent开始
最后,如果你想创建一个爬虫/机器人,你可以看看Scrapy。但是,在深入研究这个库之前,您应该从基本库开始,因为它可能会变得非常复杂
于 2013-04-03T22:08:03.577 回答
3
听起来你想要一个网络爬虫/抓取工具。你想拉什么样的东西?图片?链接?只是网络爬虫/抓取工具的工作。
从那里开始,应该有很多关于 Stackoverflow 的文章将帮助您实现连接到互联网(获取 Web 响应)等细节。
见这篇文章。
于 2013-04-03T21:59:46.913 回答
2
互联网上的内容远不止网站,但我假设您只想抓取一些 html 页面并从中提取数据。你有很多选择来解决这个问题。只是一些起点:
- 来自标准库的 urllib2
- https://pypi.python.org/pypi/requests(更容易和更用户友好)
- http://scrapy.org/(一个很好的爬虫框架)
- http://www.crummy.com/software/BeautifulSoup/(从 html 中提取数据的库)
于 2013-04-03T22:00:22.473 回答