5

我很惊讶 lxml.html 在默认情况下解析 HTML 时会留下微不足道的空白。我也很惊讶我找不到任何明显的方法让它不这样做。

Python 2.7.3 (default, Apr 10 2013, 06:20:15) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import lxml.etree
>>> parser = lxml.etree.HTMLParser(remove_blank_text=True)
>>> html = lxml.etree.HTML("<p>      Hello     World     </p>", parser=parser)
>>> print lxml.etree.tostring(html)
<html><body><p>      Hello     World     </p></body></html>

我希望结果会是这样的:

>>> print lxml.etree.tostring(html)
<html><body><p>Hello World</p></body></html>

BeautifulSoup4 对 html5lib 解析器做同样的事情:

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<p>      Hello     World     </p>", "html5lib")
>>> soup.p
<p>      Hello     World     </p>

经过一番研究,我发现HTML5的解析规范并没有指定去除连续的空白;而是在渲染时完成。所以我知道从技术上讲,这些库中的任何一个都没有责任执行相同的行为,但它似乎很有用,我很惊讶他们都没有它。

有人可以证明我错了吗?

编辑:

我知道如何使用正则表达式删除空格——这不是我的问题。(我也知道如何搜索关于正则表达式的问题。)

我的问题与无关紧要的空白有关,其重要性由呈现 HTML 的标准定义。我怀疑 1-liner regex 是否可以正确实施此标准。让我们甚至不再深入研究正则表达式与 CFG 的辩论,好吗?

RegEx 匹配打开的标签,XHTML 自包含标签除外

编辑2:

如果上下文不清楚,我对 HTML 感兴趣,而不是 XHTML/XML。空白在 HTML 中确实有一些重要的规则,但是这些规则是在渲染器中实现的,而不是在解析器中。我明白这一点,正如我最初的帖子所证明的那样。我的问题是,是否有人在 DOM 级别而不是渲染级别运行的库中实现了 HTML 渲染器的空白逻辑?

4

2 回答 2

4

我遇到了这个图书馆

可以用pip安装:

pip install htmlmin

它的用法如下:

from htmlmin import minify
html=u"<html><body><p>      Hello     World     </p></body></html>"
minified_html = minify(html)
print minified_html

返回:

<html><body><p> Hello World </p></body></html>

我认为它会满足您的要求,但正如您所见,保留了一些不相关的空间。

于 2016-03-17T11:04:41.660 回答
-3

好的。您想检测一些空格,并去掉多余的空格。

你可以用正则表达式来做到这一点。

from re import sub
sub(r"(\s)+",' ',yourstring)

它将所有相邻的空格(当多个时)替换为一个并且只有一个

'<p> Hello World </p>'

这是我的结果。

我想它已经足够接近你的期望了,一个单独的空格总是比没有空格更好。

使用更长的正则表达式,您应该设法摆脱与 HTML 标记相邻的空格。

于 2013-08-29T05:37:47.313 回答