我的任务是找到给定链接的实际新闻稿链接。比如说http://www.apple.com/pr/。
我的工具必须从上述 URL 中单独找到新闻稿链接,不包括在该站点中找到的其他广告链接、标签链接(或其他任何内容)。
开发了下面的程序,结果是给定网页中存在的所有链接。
如何修改以下程序以仅从给定 URL 中找到新闻稿链接?另外,我希望该程序具有通用性,以便它可以识别来自任何新闻稿 URL(如果给出)的新闻稿链接。
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.sql.*;
import org.jsoup.nodes.Document;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
public class linksfind{
public static void main(String[] args) {
try{
URL url = new URL("http://www.apple.com/pr/");
Document document = Jsoup.parse(url, 1000); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
System.out.println(element.attr("href"));}
}catch (Exception ex){ex.printStackTrace();}
}
}