我正在尝试阅读整个网页并将其分配给一个变量,但我无法做到这一点。该变量似乎只能保存页面源的前 512 行左右。
我尝试使用 readlines() 将源代码的所有行打印到屏幕上,这给了我完整的源代码,但我需要能够用正则表达式解析它,所以我需要以某种方式将它存储在一个变量中. 帮助?
data = urllib2.urlopen(url)
print data
只给了我大约 1/3 的来源。
data = urllib2.urlopen(url)
for lines in data.readlines()
print lines
这给了我整个来源。
就像我说的,我需要能够用正则表达式解析字符串,但我需要的部分不在我能够存储在变量中的前 1/3 中。