1

我正在编写一个爬虫来使用urllib.

get_page 函数工作 1 个周期,但是当我尝试循环它时,它不会将内容打开到我输入的下一个 url。

  • 我如何使urllib.urlopen连续下载 HTML 页面?
  • 如果不可能,是否有任何其他建议可以在我的 python 代码中下载网页?

我下面的代码只返回列表中第一个网站的 html seed

import urllib
def get_page(url):
    return urllib.urlopen(url).read().decode('utf8')

seed = ['http://www.pmo.gov.sg/content/pmosite/home.html', 
            'http://www.pmo.gov.sg/content/pmosite/aboutpmo.html']    

for j in seed:
      print "here"
      print get_page(j)

同样的抓取“一次性”问题也发生在urllib2

import urllib2
def get_page(url):
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    return response.read().decode('utf8')

seed = ['http://www.pmo.gov.sg/content/pmosite/home.html', 
            'http://www.pmo.gov.sg/content/pmosite/aboutpmo.html']    

for j in seed:
      print "here"
      print get_page(j)

没有例外,我得到一个带有 urllib 的 IOError:

Traceback (most recent call last):
  File "/home/alvas/workspace/SingCorp/sgcrawl.py", line 91, in <module>
    print get_page(j)
  File "/home/alvas/workspace/SingCorp/sgcrawl.py", line 4, in get_page
    return urllib.urlopen(url).read().decode('utf8')
  File "/usr/lib/python2.7/urllib.py", line 86, in urlopen
    return opener.open(url)
  File "/usr/lib/python2.7/urllib.py", line 207, in open
    return getattr(self, name)(url)
  File "/usr/lib/python2.7/urllib.py", line 462, in open_file
    return self.open_local_file(url)
  File "/usr/lib/python2.7/urllib.py", line 476, in open_local_file
    raise IOError(e.errno, e.strerror, e.filename)
IOError: [Errno 2] No such file or directory: 'http://www.pmo.gov.sg/content/pmosite/aboutpmo.html'

没有例外,我得到一个带有 urllib2 的 ValueError:

Traceback (most recent call last):
  File "/home/alvas/workspace/SingCorp/sgcrawl.py", line 95, in <module>
    print get_page(j)
  File "/home/alvas/workspace/SingCorp/sgcrawl.py", line 7, in get_page
    response = urllib2.urlopen(req)
  File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 392, in open
    protocol = req.get_type()
  File "/usr/lib/python2.7/urllib2.py", line 254, in get_type
    raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: http://www.pmo.gov.sg/content/pmosite/aboutpmo.html

回答:

发生 IOError 和 ValueError 是因为存在某种 Unicode 字节顺序标记 (BOM)。在第二个 URL 中发现了一个不间断空格。感谢您为解决问题提供的所有帮助和建议!!

4

2 回答 2

3

您的代码令人窒息.read().decode('utf8')

但是您不会看到这一点,因为您只是在吞咽异常。 urllib“不止一次”工作正常。

import urllib

def get_page(url):
    return urllib.urlopen(url).read()

seeds = ['http://www.pmo.gov.sg/content/pmosite/home.html', 
            'http://www.pmo.gov.sg/content/pmosite/aboutpmo.html']    

for seed in seeds:
      print 'here'
      print get_page(seed)
于 2012-09-30T14:47:56.833 回答
2

你的两个例子对我来说都很好。对于您的确切错误,我能想到的唯一解释是,第二个 URL 字符串包含某种不可打印的字符(可能是 Unicode BOM),这些字符在将代码粘贴到此处时被过滤掉了。尝试将代码从该站点复制回您的文件中,或者从头开始重新键入整个第二个字符串。

于 2012-09-30T14:52:03.803 回答