java - Jsoup 细粒度解析

Question

我正在尝试浏览网页正文上的每个 html 标签，看看它是否有文本。如果是这样，我想打印出该文本：

  Document doc = Jsoup.connect(site).get();     
    Elements e = doc.body().getAllElements();
      for (int i=0; i<e.size(); i++){
         if(doc.body().child(i).hasText()){
        System.out.println(doc.body().child(i).text());
          }
       }

以上工作，但不是我想要的。似乎 child() 方法不是细粒度的，因为它将多个“div 类”元素聚集在一起。如何以更细粒度的方式遍历 DOM 正文以查看每个标签的文本是什么？

先感谢您。

score 1 · Accepted Answer

您可以使用这种方法

在 traverse 中，您可以检查当前节点是否为 TextNode：

if(node intanceof TextNode) {
  System.out.println(node.text());
}

如果您尝试打印出所有文本。为什么你不在text()课堂上使用Elements？

score 1 · Accepted Answer

    Document doc = Jsoup.connect(site).get();
    doc.body().traverse(new NodeVisitor() {

        @Override
        public void head(Node node, int depth) {
            if (node instanceof TextNode) {
                TextNode tn = ((TextNode) node);
                // Try to improve this filter for the nodes who contain
                // texts with a whitespaces
                if (tn.text().replaceAll("\\s*", "").length() > 0) {
                    System.out.println("Tag:" + tn.parent().nodeName()
                            + ", text:" + tn.text());
                }
            }
        }

        @Override
        public void tail(Node node, int depth) {
            // Do Nothing
        }
    });

java - Jsoup 细粒度解析

2 回答 2

Related

Reference