我正在构建一个爬虫来从网站获取一些数据。到目前为止,我只访问了一个 URL 来测试我的代码。我使用的代码在一段时间内工作得很好——现在它给了我错误。
我只是在学习 Python,所以我不完全确定该怎么做。我确实尝试将套接字超时设置为 100,但这并没有改变任何东西。关于如何解决这个问题的任何想法?
这就是我检索 HTML 代码的方式:
project_html = urlopen(item).read()
我得到的错误:
Traceback (most recent call last):
File "linkscanner.py", line 76, in <module>
project_html = urlopen(item).read()
File "/usr/lib/python2.7/urllib2.py", line 127, in urlopen
return _opener.open(url, data, timeout)
File "/usr/lib/python2.7/urllib2.py", line 393, in open
protocol = req.get_type()
File "/usr/lib/python2.7/urllib2.py", line 255, in get_type
raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: h