4

我想编写一个程序来搜索一个相当大的网站并提取某些东西。我有几个在线 Python 课程,但都没有提到如何使用 Python 访问互联网。我不知道我应该从哪里开始。

4

3 回答 3

5

您必须首先阅读标准 python 库urllib2

一旦你对这个库背后的基本想法感到满意,你就可以尝试更容易与 Web 交互的请求,尤其是 API。我建议将它与httpie并行使用,以从命令行快速和肮脏地测试查询。

如果您进一步构建一个库或引擎来抓取网络,您将需要某种异步编程,我建议从Gevent开始

最后,如果你想创建一个爬虫/机器人,你可以看看Scrapy。但是,在深入研究这个库之前,您应该从基本库开始,因为它可能会变得非常复杂

于 2013-04-03T22:08:03.577 回答
3

听起来你想要一个网络爬虫/抓取工具。你想拉什么样的东西?图片?链接?只是网络爬虫/抓取工具的工作。

从那里开始,应该有很多关于 Stackoverflow 的文章将帮助您实现连接到互联网(获取 Web 响应)等细节。

这篇文章。

于 2013-04-03T21:59:46.913 回答
2

互联网上的内容远不止网站,但我假设您只想抓取一些 html 页面并从中提取数据。你有很多选择来解决这个问题。只是一些起点:

于 2013-04-03T22:00:22.473 回答