我有一个问题,我必须找到快速的解决方案。
我想删除所有“表格”内br
的p
标签,但不在外面。
例如。
初始 html 文档:
...
<p>Hello</p>
<table>
<tr>
<td><p>Text example <br>continues...</p></td>
<td><p>Text example <br>continues...</p></td>
<td><p>Text example <br>continues...</p></td>
<td><p>Text example <br>continues...</p></td>
</tr>
</table>
<p>Bye<br></p>
<p>Bye<br></p>
...
我的目标:
...
<p>Hello</p>
<table>
<tr>
<td>Text example continues...</td>
<td>Text example continues...</td>
<td>Text example continues...</td>
<td>Text example continues...</td>
</tr>
</table>
<p>Bye<br></p>
<p>Bye<br></p>
...
现在,这就是我的清洁方法:
loop do
if html.match(/<table>(.*?)(<\/?(p|br)*?>)(.*?)<\/table>/) != nil
html = html.gsub(/<table>(.*?)(<\/?(p|br)*?>)(.*?)<\/table>/,'<table>\1 \4</table>')
else
break
end
end
这很好用,但问题是,我有 1xxx 个文档,每个文档大约有 1000 行……每个文档需要 1-3 个小时。((1-3 小时)*(数千份文件)) = ¡
我想用 Sanitize 或其他方法来做,但现在......我找不到方法。
有谁能够帮我?
先感谢您!马努