java - 我如何从 html 中获取细节？

Question

我有一些 java 代码可以从我选择的网站打印出 html。我希望它只打印出 HTML 代码中的特定日期，如下所示：

<tr class="bgWhite">
  <td align="center" width="50"><nobr>GD&#160;</nobr></td>
  <td align="center">Q3&#160;2012</td>

  <td align="left" width="*">Q3 2012 General Dynamics Earnings Release</td>
  <td align="center">$ 1.83&#160;</td>
  <td align="center">n/a&#160;</td>
  <td align="center">$ 1.83&#160;</td>
  <td align="center"><nobr>24-Oct-12</nobr></td>
</tr>
<tr class="bgWhite">
  <td align="center" width="50"><nobr>GD&#160;</nobr></td>
  <td align="center">Q2&#160;2012</td>

  <td align="left" width="*">Q2 2012 General Dynamics Earnings Release</td>
  <td align="center">$ 1.75&#160;</td>
  <td align="center">n/a&#160;</td>
  <td align="center">$ 1.79&#160;</td>
  <td align="center"><nobr>25-Jul-12 BMO</nobr></td>
</tr>

所以我只希望它打印出来：24-Oct-12 25-Jul-12

我怎么做？

这是我拥有的代码：

String nextLine;
URL url = null;
URLConnection urlConn = null;
InputStreamReader  inStream = null;
BufferedReader buff = null;

try{
    // Create the URL obect that points
    // at the default file index.html
    url  = new URL("http://www.earnings.com/company.asp?client=cb&ticker=gd");
    urlConn = url.openConnection();
    inStream = new InputStreamReader( 
                       urlConn.getInputStream());
    buff= new BufferedReader(inStream);

    // Read and print the lines from index.html
    while (true){
        nextLine =buff.readLine();  
        if (nextLine !=null){
            System.out.println(nextLine); 
        }
        else{
           break;
        } 
    }
 } catch(MalformedURLException e){
   System.out.println("Please check the URL:" + 
                                       e.toString() );
 } catch(IOException  e1){
  System.out.println("Can't read  from the Internet: "+ 
                                      e1.toString() ); 
}

score 3 · Accepted Answer

使用一个完整的 HTML 解析器来完成这项工作比低级更容易java.net.URLConnection。然而，由于目标网站生成绝对非语义的 HTML（一个和所有没有任何语义标识符/类的表，就像 90 年代的平均网站看起来如何（恶心）），即使是一个像样的 HTML 解析器也很难正确解析它。但无论如何，这是一个使用Jsoup的完整启动示例，它可以准确打印您需要的信息：

Document document = Jsoup.connect("http://www.earnings.com/company.asp?client=cb&ticker=gd").get();
Elements dateColumn = document.select("table:eq(0) tr:eq(0) table:eq(7) tr:eq(2) table:eq(4) td:eq(6):not(.dataHdrText02)");

for (Element dateCell : dateColumn) {
    System.out.println(dateCell.text());
}

就这样。无需为低级java.net.URLConnection或冗长的 SAX 解析器而烦恼。

也可以看看：

领先的 Java HTML 解析器的优缺点是什么？

score 1 · Accepted Answer

我认为这是 SAX 解析器的标准 UC。您不应该逐行进行（您不能期望 html 文档总是按照当前的方式组织，因此使用 SAX 解析器将是一种更灵活的解决方案）。

如果你有关于文档大小的信息并且你知道它不会增长太多，你也可以使用 DOM 解析器。但是从这个角度来看，SAX 解析器也更好。

java - 我如何从 html 中获取细节？

2 回答 2

也可以看看：

Related

Reference