0

我有一个 html 字符串,我正在尝试替换段落标记。我可以通过选择编辑>查找内容:^p>替换为^s>全部替换,在word中手动执行此操作。我的问题是如何使用 python 中的 html 字符串执行此操作?

sample_html_string = "<html>
                  <title>
                  Hello
                  </title>
                  </html>"

correct_html_string = "<html><title>Hello</title></html>"

这个问题并没有简单地解决,re.sub因为我有一个更复杂的 html 字符串,其中包含li标签和p标签,我想在其中保持格式。

4

1 回答 1

2

你可以这样做:

>>> import re
>>> re.sub('\s+', '', sample_html_string)
'<html><title>Hello</title></html>"'

它将替换所有空格字符,并且非常适合您的示例

如果您需要替换段落标记(您的意思是\n,对吗?),您可以使用内置replace

>>> sample_html_string.replace('\n', '')
于 2012-08-06T05:43:51.593 回答