我正在尝试使用 JTidy 进行 XHTML DOM 解析,这似乎是一项违反直觉的任务。特别是,有一种解析 HTML 的方法:
Node Tidy.parse(Reader, Writer)
为了得到那个节点的 <body />,我想,我应该使用
Node Node.findBody(TagTable)
我应该在哪里获得该 TagTable 的实例?(构造函数是受保护的,我还没有找到生产它的工厂。)
我使用 JTidy 8.0-SNAPSHOT。
我发现提取身体的方法要简单得多:
整洁 = 新的整洁(); tidy.setXHTML(true); tidy.setPrintBodyOnly(true);
然后在 Reader-Writer 对上使用 tidy。
应该很简单。
您可以改用该parseDOM
方法,这会给您带来org.w3c.dom.Document
回报:
Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);