因此,我正在尝试编写自己的脚本,这些脚本将接收 html 文件并返回错误并清理它们(这样做是为了学习正则表达式,因为我发现它很有用)
我首先使用一个快速函数来获取文档,并以正确的顺序获取所有标签,以便我可以检查以确保它们都已关闭......我使用以下内容:
>>> s = """<a>link</a>
... <div id="something">
... <p style="background-color:#f00">paragraph</p>
... </div>"""
>>> re.findall('(?m)<.*>',s)
['<a>link</a>', '<div id="something">', '<p style="background-color:#f00">paragraph</p>', '</div>']
我知道它抓住了两个胡萝卜括号之间的所有东西,这就是整条线。我会用什么来返回以下内容:
['<a>','</a>', '<div id="something">', '<p style="background-color:#f00">','</p>', '</div>']