5

我正在重新发布此消息。我正在尝试提取无序列表。在上一个问题中,我的格式不正确。我试图从中提取数据的这个网站的格式正确。

<ul>
<li>
<i>
<a class="mw-redirect" title="title1" href="yahoo.com">used to be a best email</a>
</i>
(1999)
</li>
<li>
<i>
<a title="title2" href="google.com">Best search enginee We Will Go</a>
</i>
(1999)
</li>
<li>
<i>
<a title="title3" href="apple.com">Best Phone</a>
</i>
(1990)
</li>
</ul>

我想打印:

标题1

google.com

雅虎网

= 曾经是最好的电子邮件 最好的搜索电子邮件将转到 Bestphone

同样的所有 Hrefs。

我确实看到了 JSOUP 文档。

相关问题: jsoup 以获取无序列表中的数据, 但存在格式问题。

我按照建议尝试了,但它不起作用

我试过了:

Document doc = Jsoup.connect(url).get();             
Element link = doc.select("a").last();
String title1 = link.attr("title");

问题是这是一个包含一些信息的大页面。因为有很多无序列表..

4

1 回答 1

9

如果您能更好地格式化和指定您的要求,也许我的回答会更准确,这就是您要找的吗?

public static void main(String[] args) throws IOException
    {
        String html = "<ul><li><i><a class=\"mw-redirect\" title=\"title1\" href=\"yahoo.com\">used to be a best email</a></i>(1999)</li><li><i><a title=\"title2\" href=\"google.com\">Best search enginee We Will Go</a></i>(1999)</li><li><i><a title=\"title3\" href=\"apple.com\">Best Phone</a></i>(1990)</li></ul>";

        Document doc = Jsoup.parse(html);

        Elements links = doc.select("ul li i a");

        for (Element element : links) {
            System.out.format("%s %s %s\n", element.attr("title"), element.attr("href"), element.text());
        }
    }

如果不在您的问题中添加示例输出部分。

更新 :

这个怎么运作。这ul li i a是一个 CSS 选择器。这意味着将a位于内部i的每个元素都包含在li标签中,而标签中又包含在ul标签中。(可怕的解释)

你也会得到同样的结果doc.select("a")。但是具体会更好,因为您是从某个网站解析这些数据,因为链接可以位于具有不同 id/class 或其他任何内容的不同位置,并且您正在寻找这些特定的链接。

是的,如果所选元素确实具有标题、超链接和文本值,它将输出该数据。

于 2012-08-18T20:39:00.923 回答