2

我有一个问题,我必须找到快速的解决方案。

我想删除所有“表格”内brp标签,但不在外面。

例如。

初始 html 文档:

...
<p>Hello</p>
<table>
  <tr>
    <td><p>Text example <br>continues...</p></td>
    <td><p>Text example <br>continues...</p></td>
    <td><p>Text example <br>continues...</p></td>
    <td><p>Text example <br>continues...</p></td>
  </tr>
</table>
<p>Bye<br></p>
<p>Bye<br></p>
...

我的目标:

...
<p>Hello</p>
<table>
  <tr>
    <td>Text example continues...</td>
    <td>Text example continues...</td>
    <td>Text example continues...</td>
    <td>Text example continues...</td>
  </tr>
</table>
<p>Bye<br></p>
<p>Bye<br></p>
...

现在,这就是我的清洁方法:

loop do
  if html.match(/<table>(.*?)(<\/?(p|br)*?>)(.*?)<\/table>/) != nil
    html = html.gsub(/<table>(.*?)(<\/?(p|br)*?>)(.*?)<\/table>/,'<table>\1 \4</table>')
  else
    break
  end
end

这很好用,但问题是,我有 1xxx 个文档,每个文档大约有 1000 行……每个文档需要 1-3 个小时。((1-3 小时)*(数千份文件)) = ¡

我想用 Sanitize 或其他方法来做,但现在......我找不到方法。

有谁能够帮我?

先感谢您!马努

4

1 回答 1

4

使用Nokogiri

require 'nokogiri'

doc = Nokogiri::HTML::Document.parse <<-_HTML_
<p>Hello</p>
<table>
  <tr>
    <td><p>Text example <br>continues...</p></td>
    <td><p>Text example <br>continues...</p></td>
    <td><p>Text example <br>continues...</p></td>
    <td><p>Text example <br>continues...</p></td>
  </tr>
</table>
<p>Bye<br></p>
<p>Bye<br></p>
_HTML_

doc.xpath("//table/tr/td/p").each do |el|
  el.replace(el.text)
end

puts doc.to_html

输出:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body>
<p>Hello</p>
<table><tr>
<td>Text example continues...</td>
    <td>Text example continues...</td>
    <td>Text example continues...</td>
    <td>Text example continues...</td>
  </tr></table>
<p>Bye<br></p>
<p>Bye<br></p>
</body>
</html>
于 2013-07-30T16:31:25.113 回答