0

在教程的第一步中,html5lib我看到了相当混乱的行为。

文档告诉:

import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)

这将返回自定义“simpletree”格式的树。

作为文件,我有一个普通的 html 文档。但就我而言,这是:

<None>
>>> doc is None
False

我相信这不好,但我不知道会发生什么。

编辑

read如果我在打开的文件上调用方法,它会以字符串形式返回文件:

f = open("mydocument.html")
f.read()
# returns string with html

之后doc = html5lib.parse(f)f.read()返回空字符串,就像文件已经被读取的文件一样。

4

1 回答 1

1
  • <None>并不意味着您的文档没有被解析,它只是意味着您的文档没有名称。如果你这样做

    doc.name = "test"
    print(doc)
    

    它应该显示<test>

  • parse也可以将字符串作为参数,在这种情况下它会为你加载文件,不需要你自己打开它。

  • 尝试print(doc.toxml())

于 2012-04-30T07:28:11.273 回答