我创建了一个简单的 html 解析代码,它从给定的 Xpath 获取文本内容。
我的代码:
XPathFactory xFactory = XPathFactory.newInstance();
CleanerProperties props = new CleanerProperties();
props.setNamespacesAware(false);
XPath xpathi = xFactory.newXPath();
HtmlCleaner cleaner = new HtmlCleaner(props);
TagNode node = cleaner.clean(rawContent);
org.w3c.dom.Document doc = new DomSerializer(props).createDOM(node);
Object[] obj = xpathi.compile("//div[@class='answer']").evaluate(doc, XPathConstants.NODESET);
在这个我得到的 obj 填充了预期的答案。但是答案中的 \n 字符被替换为空字符串。例如)如果答案是这样的,一二三
我要一二三 我要一二三
为此,我需要在 CleanerProperties 中设置任何属性吗?
任何建议请..