3

如何在 Ruby 中按名称删除某些 HTML 标签?

例如:

string = "<!DOCTYPE html><html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>"

string.magic_method("h1") #=> "<!DOCTYPE html><html><body><p>My first paragraph.</p></body></html>"

我写了一些正则表达式来做到这一点,但想知道是否有一个库或本机方法可以做同样的事情。

4

2 回答 2

5

使用Nokogiri

require 'nokogiri'

doc = Nokogiri::HTML <<-_HTML_
<!DOCTYPE html><html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>
_HTML_

doc.at('h1')
# => #(Element:0x4d2f006 {
#      name = "h1",
#      children = [ #(Text "My First Heading")]
#      })

doc.at('h1').unlink
puts doc.to_html
# >> <!DOCTYPE html>
# >> <html><body><p>My first paragraph.</p></body></html>
于 2013-07-31T18:19:10.700 回答
2

使用宝石nokogiri。它有一些很好的方法来操作 HTML 和 XML,包括删除标签的方法,您可以在这里看到:如何使用 Nokogiri 删除节点?

Github:https ://github.com/sparklemotion/nokogiri

于 2013-07-31T18:19:42.873 回答