1

请注意,我现在只在速成课程上用 Java 编程了一周,所以要温柔。我正在编写一个程序来获取在线新闻文章和所有读者评论并将它们转换为 graphml 文档,我已经掌握了 java 和 jsoup 的窍门,但现在我正试图将评论转换为轻度格式化的纯文本 -带有线条的文本

Elements comments = qaDoc.select("li[data-comment-id]");

for (Element comment : comments) {

//code

  commentText = comment.select("div[class$=d2-body]").first().HtmlToPlainText();

//code

}

但是当我尝试编译时,我不断收到指向 .HtmlToPlainText() 的“错误:找不到符号”

我放了

导入java.lang.Object;导入 org.jsoup.examples.HtmlToPlainText;

在我的课程开始时以及其他必要的导入时,我也找不到 HtmlToPlainText 的源代码,它不在 Cookbook 中,因为 ListLinks 顺便说一下不使用 eclipse ide,而只是 windows 中的 je 编辑器和命令提示符 谢谢

4

1 回答 1

1

HtmlToPlainText是 JSoup 库中的一个类,您尝试调用的“方法”是它的构造函数,因此您将无法编译和运行到目前为止的代码。

由于您的代码不完整,我假设这commentText是评论的简单字符串表示,然后您应该能够执行以下操作来实现您想要的:

commentText = comment.select("div[class$=d2-body]").first().text();

这将返回一个包含文本及其所有子项的字符串。

您也可以使用简单的toString()方法。

commentText = comment.select("div[class$=d2-body]").first().toString();

我强烈建议您始终参考JSoup API,它可以帮助您很多。在“示例”子包中,您可以找到该类HtmlToPlainText

于 2013-07-23T23:25:10.003 回答