3

我正在使用 Hpricot 来解析主题文件。但是,我注意到,如果我将有效的 HTML5 文档输入 Hpricot(),它会自动关闭 HTML5 标记(如<section>),并与DOCTYPE.

是否有任何 Hpricot 扩展,或者我需要设置的标志,以允许正确解析 HTML5 文档?

4

2 回答 2

2

我知道它可以解决直接问题,但我建议您尝试 Nokogiri http://nokogiri.org/,正如您问题帖子的一些评论中提到的那样。我在解析任何 HTML/XML(如结构化文本)(包括 HTML5)时都没有遇到任何问题。

于 2011-01-30T07:21:25.547 回答
0

我认为 Hpricot 的to_original_html方法正是您正在寻找的。

从文档中,to_original_html

尝试保留文档的原始 HTML,只为已更改的元素输出新标签。

于 2011-02-24T21:58:26.207 回答