python - 如何使用 python 抓取任何网站的“下载页面”

Question

我想使用 python 抓取任何站点的下载页面以提取有关版本的信息及其下载链接。我正在学习python，想用beautifulsoup 来做，但是这些页面非常复杂，而且看起来很难找到这些东西。提前致谢

score 4 · Accepted Answer

欢迎来到堆栈溢出！--我猜你的意思是“scrape”，因为“scrap”的意思是“扔掉”。

首先，您必须使用 urllib2 创建要抓取的页面的文件对象。阅读本文以了解如何操作。

然后，您必须通过检查页面的 html 内容来确定要从页面本身获取哪些信息。

最后，您将文件对象传递给 beautiful soup 的解析器，并浏览 HTML 以返回您想要获取的信息。

为了将来参考，BeautifulSoup 有漂亮的文档。如果你想精通编程，你必须学习如何阅读文档——从这里开始真的只会变得更难。

1 回答 1