在我的软件的某个部分,我想简单地获取 URL 的源代码,然后我想解析那个字符串(源)并做一些事情。问题是,当我实际运行程序时,我无法弄清楚如何获得所说的源,即使它在 IDLE 中工作。
import urllib2
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
req = urllib2.Request('http://www.google.com')
response = urllib2.urlopen(req)
page_source = response.read()
page_source
例如,如果我这样做,“page_source”将不会打印任何内容,它只会保持沉默并完成执行。我相信这是因为它不是同步的,但是我不知道如何解决它。我什至尝试过(作为绝望的尝试):
import urllib2
import time
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
req = urllib2.Request('http://www.google.com')
response = urllib2.urlopen(req)
page_source = response.read()
time.sleep(4)
page_source
这也行不通。
我已经考虑过获取response.code
并制作一个while循环,类似于以下内容:
while (response.code !== 200):
time.sleep(4)
但话又说回来,它失败了,因为“response.code”根本没有返回任何东西。
我不担心用户连接等问题,因为其余的代码已经处理好了,我真的只需要弄清楚如何获取页面源并解析它。