试图通过第三方网站进行蜘蛛/爬网,但我似乎遇到了障碍:
urlopen'ing 网站得到响应,但阅读和打印 HTML 似乎告诉我我没有得到任何回报。这可能是由于另一端的某种阻塞造成的吗?还是什么?
目前,我正在尝试打开《纽约时报》的文章。主页返回 HTML,文章,呃,不。
try:
source = urllib.urlopen(target_site)
html = source.read()
print "HTML: ", html.lower()
输出:
HTML:
(other stuff)
哦,它有时也会超时,但我希望这是一个不同的故事。