我正在使用 JTidy v. r938。我正在使用此代码来尝试清理页面……</p>
final Tidy tidy = new Tidy();
tidy.setQuiet(false);
tidy.setShowWarnings(true);
tidy.setShowErrors(0);
tidy.setMakeClean(true);
Document document = tidy.parseDOM(conn.getInputStream(), null);
但是当我解析这个 URL 时—— http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1,事情并没有得到清理。例如,页面上的 META 标签,如
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
保持为
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
而不是具有“</META>”标签或显示为“<META http-equiv="Content-Type" content="text/html; 字符集=UTF-8"/>"。我通过将生成的 JTidy org.w3c.dom.Document 作为字符串输出来确认这一点。
我可以做些什么来使 JTidy 真正清理页面——即使其格式正确?我意识到那里还有其他工具,但这个问题特别与使用 JTIdy 有关。