jsoup - 使用 Jsoup 从任何网页中提取文本

Question

我正在尝试从网页http://www.zomato.com/mumbai/starbucks-coffee-fort中提取文本，包括原始中的任何换行符、空格。为此，我在Jsoup的答案的帮助下编写了以下代码- 提取文本：

Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div");
for (Element d : div) {
  for (Node nd : d.childNodes()) {
    System.out.println(nd.toString());
  }
}

但它没有按预期工作。实际上它应该打印所有子节点的文本以及文本。此外，我希望此代码有点通用化，以便它可以从任何网页中提取文本。请帮忙。

score 0 · Accepted Answer

Jsoup 是用于从任何网页抓取文本的通用工具；）

这种情况的解决方案：

Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div.res-review-body > div > p");
for (Element paragraph : div) {
    System.out.println(paragraph.text());
}

结果：

Firstly I would say it was tough to even start writing a review for a brand like 'Starbucks'.
(...)

jsoup - 使用 Jsoup 从任何网页中提取文本

1 回答 1

Related

Reference