在教程的第一步中,html5lib
我看到了相当混乱的行为。
文档告诉:
import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)
这将返回自定义“simpletree”格式的树。
作为文件,我有一个普通的 html 文档。但就我而言,这是:
<None>
>>> doc is None
False
我相信这不好,但我不知道会发生什么。
编辑
read
如果我在打开的文件上调用方法,它会以字符串形式返回文件:
f = open("mydocument.html")
f.read()
# returns string with html
之后doc = html5lib.parse(f)
,f.read()
返回空字符串,就像文件已经被读取的文件一样。