我正在尝试使用 urllib2 和 beautifulsoup 来爬网。但是我的代码内存不足,其中一些链接如下:
http://downloads.graboidvideo.com/download_filter.php?file=GraboidVideoSetup.pkg&platform=Mac
这是一个视频下载链接。当我使用 urllib2.urlopen() 时,它将下载视频,这不是我想要的。有没有办法只下载url的html?如果 url 引用视频文件或其他文件,我基本上想跳过它,但我不知道该怎么做。
我的代码如下:
toy_url=http://downloads.graboidvideo.com/download_filter.php?file=GraboidVideoSetup.pkg&platform=Mac
headers = {'USER-Agent':'crawltaosof'}
req = urllib2.Request(url, None,headers)
page = urllib2.urlopen(req,timeout=0.51).read()