0
</div><div class="tr">
  </div><div class="bl">
  </div><div class="br">
  </div>  <img src="http://blablabla.com/medium/blablabla.jpg" />
</div></a>
          </div><div class="meta">
<h3 class="action">
<span>
    <a href="/abc">ABC</a>
  </span> a picture
</h3>        

我将网站的 HTML 源代码保存到 String 中,如下所示:

  public static BufferedReader read(String url) throws Exception
  {
    return new BufferedReader(
        new InputStreamReader(
            new URL(url).openStream()));
  }

在这段代码中,我想将所有图像 url 保存在一个新的字符串中,其中包含/medium/内部的连接 \n,或者使字符串中的所有图像链接更容易连接 \n。流程应该如何?提前致谢

4

1 回答 1

1

与其尝试自己解析 HTML 内容,不如使用JSoup来获取图像标签并执行简单String.contains的操作来获取您正在寻找的图像标签。

Document doc = Jsoup.connect("http://www.blah.com/foo.html");
for (Element e : doc.select("img")) {
    String imageSrc = e.attr("src");
    if (imageSrc.contains("/medium/")) {
     ...
    }
}

还要避免使用正则表达式来解析 HTML

于 2012-12-28T22:40:55.120 回答