filehandle = urllib.urlopen(myurl)
Because of the fact that I want to regex
the filehandle
afterwords I need to transform the filehandle from an object to a string.
How can I make the webpage code to be stored in a string?
这很简单:
page = filehandle.read()
您也可以对其进行迭代,例如:
lines = []
for line in filehandle:
lines.append(line)
要提取数据,请使用BeautifulSoup或lxml。
因为urllib.urlopen
返回一个类似对象的文件,所以您可以调用.read()
它,也可以直接迭代它。
有关更多信息,请参阅文档
编辑:
好解释什么
直接迭代它
方法。
import urllib
request = urllib.urlopen("http://www.python.org")
for source_line in request:
print source_line