我正在尝试使用 reverse-markdown Ruby gem 将 HTML 页面转换为 Markdown。不幸的是,它失败了:
/usr/lib/ruby/1.9.1/rexml/parsers/treeparser.rb:95:in `rescue in parse': #<REXML::ParseException: Missing end tag for 'img' (got "td") (REXML::ParseException)
源代码包含一些以代替结尾的 , 等IMG
标签。INPUT
>
/>
我试过 tidy_ffi 宝石:
doc = Nokogiri::HTML(TidyFFI::Tidy.new(Nokogiri::HTML(page).to_html,
:numeric_entities => 1,
:output_html => 1,
:merge_divs => 0,
:merge_spans => 0,
:join_styles => 0,
:clean => 1,
:indent => 1,
:wrap => 0,
:drop_empty_paras => 0,
:literal_attributes => 1).clean)
但这并没有什么不同。有什么建议么?