我正在尝试清理 HTML 文件,但它无法正常工作。除了段落和换行标记之外,我希望全部都是纯文本。这是我的清理代码(点表示我班级中与问题无关的其他代码):
.
.
.
include ActionView::Helpers::SanitizeHelper
.
.
.
def remove_html(html_content)
sanitized_content_1 = sanitize(html_content, :tags => %w(p br))
sanitized_content_2 = Nokogiri::HTML(sanitized_content_1)
sanitized_content_2.css("style","script").remove
return sanitized_content_2
end
它无法正常工作。 这是函数从中读取其输入的原始 HTML 文件,这是它返回的“净化”代码。它留在 CSS 标记、JavaScript 和 HTML 注释标记的正文中。它也可能会留在我没有注意到的其他东西中。请告知如何彻底删除除段落和换行标记之外的所有 CSS、HTML 和 JavaScript?