-3

我想使用 python 抓取任何站点的下载页面以提取有关版本的信息及其下载链接。我正在学习python,想用beautifulsoup 来做,但是这些页面非常复杂,而且看起来很难找到这些东西。提前致谢

4

1 回答 1

4

欢迎来到堆栈溢出!--我猜你的意思是“scrape”,因为“scrap”的意思是“扔掉”。

首先,您必须使用 urllib2 创建要抓取的页面的文件对象。阅读本文以了解如何操作。

然后,您必须通过检查页面的 html 内容来确定要从页面本身获取哪些信息。

最后,您将文件对象传递给 beautiful soup 的解析器,并浏览 HTML 以返回您想要获取的信息。

为了将来参考,BeautifulSoup 有漂亮的文档。如果你想精通编程,你必须学习如何阅读文档——从这里开始真的只会变得更难。

于 2012-11-08T17:48:19.060 回答