java - 如何使用 Jsoup 放弃部分网页？

Question

我目前正在使用 Jsoup 来解析 html。代码很简单：

Document doc = null;
    try{
        doc = Jsoup.connect(link).get();    
    }
    catch (Exception e) {
        //System.out.println("Some error occured.");
        textView.setText(e.getMessage());
    }

它确实为我提供了我想要的网页，稍后我可以使用它的 getElementsByTag 方法等从该网页中提取我需要的数据。但是，我只想使用部分网页，例如，我希望放弃 < 之后的所有内容！-- / foo --> 在我的网页中。（实际上它在 < 和 ! 之间没有空格，但我不能在这里输入。）有没有办法在该字符串之后放弃网页并只获取我想要的部分的新文档？我检查了食谱，但它似乎只处理网页结构，所以我不太确定是否可以执行字符串删除之类的操作。感谢您的阅读。

score 1 · Accepted Answer

您可以使用 Document doc = Jsoup.parse(html) 其中 HTML 是页面 HTML。即首先采用 HTML

   Connection connect = Jsoup.connect(url);
   Connection.Response response = connect.execute();
   String html = response.body();

然后执行您需要的任何操作（例如，在标记后剪切 HTML，但添加必要的关闭 HTML 标签），然后

   Document doc = Jsoup.parse(html)

java - 如何使用 Jsoup 放弃部分网页？

1 回答 1

Related

Reference