html - 有没有比 CGI for Ruby 更好的 HTML 转义和反转义工具？

Question

CGI.escapeHTML很糟糕，但CGI.unescapeHTML完全无聊。例如：

require 'cgi'

CGI.unescapeHTML('&#8230;')
# => "…"                    # correct - an ellipsis

CGI.unescapeHTML('&hellip;')
# => "&hellip;"             # should be "…"

CGI.unescapeHTML('&#162;')
# => "\242"                 # correct - a cent

CGI.unescapeHTML('&cent;')
# => "&cent;"               # should be "\242"

CGI.escapeHTML("…")
# => "…"                    # should be "&#8230;"

似乎unescapeHTML知道所有的数字代码加&、、、<和。并且只知道最后四个——它不做任何数字代码。我知道转义通常不需要那么健壮，因为 HTML 将允许大多数字符的文字版本，除了知道的四个字符。但是取消转义确实应该更好。>"escapeHTMLCGI.escapeHTML

有没有更好的工具，至少可以用来逃避？

score 28 · Accepted Answer

htmlentities gem 应该可以解决问题：

require 'rubygems'
require 'htmlentities'

coder = HTMLEntities.new

coder.decode('&#8230;') # => "…"
coder.decode('&hellip;') # => "…"
coder.decode('&#162;') # => "¢"
coder.decode('&cent;') # => "¢"
coder.encode("…", :named) # => "&hellip;"
coder.encode("…", :decimal) # => "&#8230;"

score 2 · Accepted Answer

require 'rubygems'
require 'hpricot'

Hpricot('&#8230;', :xhtml_strict => true).to_plain_text

尽管您可能不得不摆弄字符编码。

html - 有没有比 CGI for Ruby 更好的 HTML 转义和反转义工具？

2 回答 2

Related

Reference