我正在尝试从给定 Xpath 的文件中获取 html 代码。我尝试使用 HTMLUnit,但它似乎不能很好地处理从谷歌缓存下载的这些静态文件。我在使用 HTMLCleaner 时运气好一点,但到目前为止,我只能获取文本而没有 HTML 代码。任何的意见都将会有帮助。以下是我目前正在使用的代码。
TagNode tagNode = new HtmlCleaner().clean(readFile(htmlCacheFile));
Document doc = new DomSerializer(new CleanerProperties()).createDOM(tagNode);
XPath xpath = XPathFactory.newInstance().newXPath();
String title = ((String) xpath.evaluate(TITLE_XPATH, doc, XPathConstants.STRING)).trim();
String body = ((String) xpath.evaluate(BODY_XPATH, doc, XPathConstants.STRING)).trim();