python - 如何使用 Python 搜索互联网？

Question

我想编写一个程序来搜索一个相当大的网站并提取某些东西。我有几个在线 Python 课程，但都没有提到如何使用 Python 访问互联网。我不知道我应该从哪里开始。

score 5 · Accepted Answer

您必须首先阅读标准 python 库urllib2。

一旦你对这个库背后的基本想法感到满意，你就可以尝试更容易与 Web 交互的请求，尤其是 API。我建议将它与httpie并行使用，以从命令行快速和肮脏地测试查询。

如果您进一步构建一个库或引擎来抓取网络，您将需要某种异步编程，我建议从Gevent开始

最后，如果你想创建一个爬虫/机器人，你可以看看Scrapy。但是，在深入研究这个库之前，您应该从基本库开始，因为它可能会变得非常复杂

score 3 · Accepted Answer

听起来你想要一个网络爬虫/抓取工具。你想拉什么样的东西？图片？链接？只是网络爬虫/抓取工具的工作。

从那里开始，应该有很多关于 Stackoverflow 的文章将帮助您实现连接到互联网（获取 Web 响应）等细节。

见这篇文章。

score 2 · Accepted Answer

互联网上的内容远不止网站，但我假设您只想抓取一些 html 页面并从中提取数据。你有很多选择来解决这个问题。只是一些起点：

3 回答 3