ruby - 使用 Nokogiri（而不是 Tidy）清理 HTML

Question

tidygem 不再维护，并且存在多个内存泄漏问题。

有人建议使用 Nokogiri。

我目前正在使用以下方法清理 HTML：

Nokogiri::HTML::DocumentFragment.parse(html).to_html

我有两个问题：

Nokogiri 删除DOCTYPE
有没有一种简单的方法可以强制清理后的 HTML 有一个htmlandbody标记？

score 8 · Accepted Answer

如果您正在处理完整的文档，您需要：

Nokogiri::HTML(html).to_html

这将强制html和body标记，并引入或保留DOCTYPE：

puts Nokogiri::HTML('<p>Hi!</p>').to_html
#=> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"
#=>  "http://www.w3.org/TR/REC-html40/loose.dtd">
#=> <html><body><p>Hi!</p></body></html>

puts Nokogiri::HTML('<!DOCTYPE html><p>Hi!</p>').to_html
#=> <!DOCTYPE html>
#=> <html><body><p>Hi!</p></body></html>

请注意，不保证输出在语法上有效。例如，如果我提供了一个损坏的文档并声称它是 HTML4.01 严格的，Nokogiri 将输出一个具有该 DOCTYPE 但没有所需<head><title>...</title></head>部分的文档：

dtd = '<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">'
puts Nokogiri::HTML("#{dtd}<p>Hi!</p>").to_html
#=> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
#=>  "http://www.w3.org/TR/html4/strict.dtd">
#=> <html><body><p>Hi!</p></body></html>

score 2 · Accepted Answer

可能不支持 Tidy gem，但tidy维护了底层应用程序，这就是您真正需要的。它很灵活，并且有很多选项。

您可以通过多种不同的方式将 HTML 传递给它，并在.tidyrc文件中定义其配置或在命令行上传递它们。您可以使用 Ruby%x{}向其传递文件或使用IO.popen，或IO.pipe将其视为管道。

ruby - 使用 Nokogiri（而不是 Tidy）清理 HTML

2 回答 2

Related

Reference