python - 如何从 HTML td 标记中去除所有属性，但在 python 中的行跨度？

Question

使用python 3.3我试图使一些正则表达式替换失败。

我想去除td标签的所有属性，除了rowspan属性（最后的示例 td）。

使用以下命令，我可以在rowspan存在时成功替换：

re.sub('(<td)[^>]*([\\s]rowspan[\\s]*=[\\s]*[0-9]*)[^>]*(>)', handle_td, file_contents)

哪里handle_td是：

def handle_td(matchobj):
    new_td = ''
    for curr_group in matchobj.groups(''):
        if curr_group != '':
            new_td += curr_group
    return new_td

但我也想照顾其余td的。这是我没有做到的。

如果我?在第二组之后添加它会将 td 标签更改为并且不保留该rowspan属性。

我究竟做错了什么？我怎样才能解决这个问题？

我不喜欢运行另一个命令来处理其他命令，td但我没有管理......

<td width=307 valign=top style='width:230.3pt;border:solid windowtext 1.0pt; border-left:none;padding:0cm 5.4pt 0cm 5.4pt'>
<td width=307 rowspan=4 style='width:230.3pt;border:solid windowtext 1.0pt; border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
<td width=307 valign=top style='width:230.3pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; padding:0cm 5.4pt 0cm 5.4pt'>

这应该产生：

<td>
<td rowspan=4>
<td>

我是这样管理的（如果您有更好的方法，请随时添加）：

# Leave only specific attributes for td tags 
def filter_td_attributes(matchobj):
    if matchobj.group(1) == "rowspan":
        return matchobj.group(1) + '=' + matchobj.group(2)

# Loop the attributes of the td tags
def handle_td(matchobj):
    new_td = re.sub("([a-zA-Z]+)[\\s]*=[\\s]*([a-zA-Z0-9:;.\\-'\\s]*)([\\s]|>)", filter_td_attributes, matchobj.group(0))
    new_td = re.sub("[\\s]*$", '', new_td)
    new_td = new_td + ">" # close the td tag
    return new_td

file_contents = re.sub('[\\s]*</p>[\\s]*</td>', '</td>', file_contents)

score 0 · Accepted Answer

当行跨度代码是可选的时，您必须使[^>]*代码的一部分非贪婪： make it [^>]*?。加在一起就变成了：

'(<td)[^>]*?([\\s]rowspan[\\s]*=[\\s]*[0-9]*)?[^>]*(>)'

贪婪版本 ( [^>]*) 的意思是“给我尽可能多的非 >”字符，但我会接受零”。

非贪婪版本 ( [^>]*?) 的意思是“给我尽可能少的非 >”字符，同时仍然使整个正则表达式匹配”

python - 如何从 HTML td 标记中去除所有属性，但在 python 中的行跨度？

1 回答 1

Related

Reference