获取简单的网页非常容易。正如我从python的手册中看到的
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
但是如何获取所有站点?有人可以给我代码吗?
获取简单的网页非常容易。正如我从python的手册中看到的
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
但是如何获取所有站点?有人可以给我代码吗?
使用BeautifulSoup解析站点并为每个链接重复该过程,除非它会将您引导到域之外。
非常简单,但是如果您尝试获取没有链接的动态内容,它就会变得复杂。
您可以使用以下组合
您可以提取网页上的链接并跟踪您是否已经访问过该页面以及该网址是否属于同一站点并获取它们。
您需要牢记为该页面编制索引所需的嵌套级别。否则,您要检索的页面将成倍增长