java - 从网站获取超链接

Question

我正在使用 Jsoup。我做了一个获取document= connect.get(); 并获取 html 页面。

现在我将其写入文本（字符串）。

我有填充这些页面的用户。我知道每个用户名。这些页面有用户名。我可以执行 string.contains("username") 来检查用户是否存在。

现在我的问题是：我的用户中有名字

表

有序列表

无序列表

在身体

但在所有这些情况下，它们的格式为：示例

<li><a href="http://university.xxx.students.com/grade9/john/117429">2012 academic record</a></li>

有些在桌子上和所有..

在示例中，我知道学生姓名 = john. 我怎样才能得到所有的网址？

==

score 1 · Accepted Answer

您可以为此使用正则表达式：

Elements elements = document.select("[href~=(?is)http://university\\.xxx\\.students\\.com/grade9/(.+?)/[0-9]+?]")

更抽象：document.select("a[href~=regex]")

如果您已经知道可以替换的名称(.+?)，例如：

Elements elements = document.select("[href~=(?is)http://university\\.xxx\\.students\\.com/grade9/" + name + "/[0-9]+?]")

score 0 · Accepted Answer

这个怎么样：

    Document doc = Jsoup.connect(url).get();
    Elements links = doc.select("a[href]");

    for (Element link : links) {
        if(link.attr("abs:href").contains(studentName) || link.text().contains(studentName)){
            studentLinkList.add(link.attr("abs:href"));
        }
    }

java - 从网站获取超链接

2 回答 2

Related

Reference