python - 如何在 python 中检查页面是否基于 html5？

Question

我正在尝试使用lxml模块解析网络上的各种页面，例如：

def dom(self):
    return lxml.html.fromstring(self.content)

但在 html5 页面的情况下，我似乎必须将其切换lxml.html为lxml.html.html5parser。

http://lxml.de/html5parser.html

那么如何确定页面是否基于 html5？在解析之前我必须DOCTYPE逐个检查字符吗？

编辑：我做了一个简单的正则表达式来处理这个问题。它似乎有效，但是，是的，我仍在寻找一些巧妙的方法。该解决方案打破了sourceline方法。

import lxml.html
from lxml.html import html5parser

def dom(self):
    content = self.content
    if self._is_html5():
        elm = html5parser.fromstring(content)
        content = lxml.html.tostring(elm, method='html')
    return lxml.html.fromstring(content)

def _is_html5(self):
    return bool(re.match(r'^<!doctype html>', self.content, re.I))

score 0 · Accepted Answer

您不必切换到仅对 HTML5 文件使用 HTML5parser。您可以并且可能应该对所有 HTML 文件使用 HTML5parser。浏览器总是对所有 HTML 文件使用兼容 HTML5 的解析器，无论版本如何。

python - 如何在 python 中检查页面是否基于 html5？

1 回答 1

Related

Reference