python - 为什么 HTMLParser 在非严格模式下会忽略开始标签？

Question

我写了一个基于 HTMLParser 的简单解析器：

from html.parser import HTMLParser

class MyParser(HTMLParser):
    def __init__(self, strict = True):
        super().__init__(strict)

    def handle_starttag(self, tag, attrs):
        print('Start tag: ', tag)

    def handle_endtag(self, tag):
        print('End tag ', tag)

然后我尝试在严格和非严格模式下解析下一个示例（通过在 HTMLParser 构造函数中传递 strict=True 或 strict=False ）：

source = '''
<!DOCTYPE html>
<html>
  <head>
    <title>Hello HTML</title>
  </head>
  <body>
    <p>Hello World!</p>
  </body>
</html>
'''
#myParser = MyParser(True) # strict
myParser = MyParser(False) # non-strict
myParser.feed(source)
myParser.close()

结果，对于严格模式和非严格模式，我得到了两个不同的结果。严格的：

Start tag:  html
Start tag:  head
Start tag:  title
End tag  title
End tag  head
Start tag:  body
Start tag:  p
End tag  p
End tag  body
End tag  html

非严格：

End tag  title
End tag  head
End tag  p
End tag  body
End tag  html

为什么 HTMLParser 在非严格模式下会忽略开始标签？如何在不省略开始标签的非严格模式下使用 HTMLParser？

score 1 · Accepted Answer

这是 python 3.2.2（和其他）中的一个错误，有关详细信息和快速修复，请参阅http://bugs.python.org/issue13273。它在 3.2.3 中修复。

python - 为什么 HTMLParser 在非严格模式下会忽略开始标签？

1 回答 1

Related

Reference