java - java html解析器多页表

Question

我正在使用 Jsoup 作为 html 解析器来从本网站的表格中获取所有详细信息。使用下面的代码只能获取第一页上的数据。有什么建议吗？

   public static void main(String[] args) {
   String html = "http://www.fifa.com/worldranking/rankingtable/index.html#";
   try {
     Document doc = Jsoup.connect(html).get();        
     Elements tableElements = doc.select("table");

     Elements tableHeaderEles = tableElements.select("thead tr th");
     System.out.println("headers");
     System.out.print("row");
     for (int i = 0; i < tableHeaderEles.size(); i++) {
        System.out.print(tableHeaderEles.get(i).text() + " | ");
     }
     System.out.println();

     Elements tableRowElements = tableElements.select(":not(thead) tr");

     for (int i = 0; i < tableRowElements.size(); i++) {
        Element row = tableRowElements.get(i);
        System.out.print("row");           
        Elements rowItems = row.select("td");
        for (int j = 0; j < rowItems.size(); j++)         
        {                              
           System.out.print(rowItems.get(j).text() + " | ");                              
        }
        System.out.println();
     }

  } catch (IOException e) {
     e.printStackTrace();
  }    }

score 1 · Accepted Answer

JSoup 是一个 HTML 解析器，但是看网站是使用 javascript 来加载表格的。所以你需要点击进去。

您可以使用 HTMLUnit 或 Selenium 进行导航，使用 JSoup 来解析 HTML。

我希望它有所帮助。

编辑：

在页面的代码中看起来更好。我认为它可能有用：

http://www.fifa.com/worldranking/rankingtable/gender=m/rank=100/confederation=0/page=0/_ranking_table.html

我更改了 URL 的值，看看你可以增加的排名（是排名的日期），重要的是页面。您可以加载所有增加页面参数的排名。然后只需用 JSoup 解析它就足够了。

例如最后的排名是： http ://www.fifa.com/worldranking/rankingtable/gender=m/rank=237/confederation=0/page=1/_ranking_table.html

然后你可以增加参数 page=2, 然后 3, ... 直到 7

干杯。

java - java html解析器多页表

1 回答 1

Related

Reference