1

我在我的应用程序中使用 jericho 解析器来获得一个更轻量级的网页版本,从中提取一些部分。所以,例如,当我得到这个代码时:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN/" "http://www.w3.org/TR/html4/loose.dtd"><html> <head> </head> <body> <b> <span class="articletitletext">Happy New Year!</span></b> <br> <span class="postedstamp">Posted By <script language="JavaScript" type="text/javascript"> <!-- document.write('<a href="&#32;&#109;&#97;&#105;&#108;&#116;&#111;&#58;&#99;&#104;&#114;&#105;&#115;&#46;&#119;&#121;&#109;&#97;&#110;&#64;&#118;&#101;&#114;&#105;&#122;&#111;&#110;&#46;&#110;&#101;&#116;">'); // --> </script>Chris</a> on January 1, 2012</span><br> <br> <span id="intelliTXT">

From all of us here at TheForce.net, we wish you and your family a safe and Happy New Year. May the Force be with you in 2012!

</span></body> </html>

我想使用 jericho 解析器再次解析它,但是当我运行时

ArrayList<Element> centerElems=(ArrayList<Element>) pageSource.getAllElements(HTMLElementName.CENTER);

我得到了这个例外

01-01 10:46:37.518: ERROR/AndroidRuntime(648): java.lang.RuntimeException: Unable to start activity ComponentInfo{net.test.theforce/net.test.theforce.NewsListActivity}: java.lang.RuntimeException: java.lang.ClassCastException: java.util.Collections$EmptyList

并且应用程序崩溃了……那么,较轻的页面有什么问题?

4

1 回答 1

2

在我看来,Jericho 解析器可以解析你给它的 HTML。您遇到的错误是因为您对getAllElements()方法返回的内容做出了错误的假设。

我承认我只能找到此方法的零参数重载的 Javadoc ,而不是您正在使用的单参数重载,因此我必须假设这两种方法返回相同的类型,List<Element>. 在您的示例中,HTML 中没有center元素,因此该getAllElements()方法应返回一个空的List<Element>. 它不必在ArrayList<Element>这里返回;任何实施List<Element>都可以。在这种情况下,它选择返回 a Collections.emptyList()。这不是ArrayList<Element>,并且您得到 aClassCastException因为您不能将其转换为ArrayList<Element>

据我所知,您有两种选择:

  • 首先,您可能不需要返回的列表是ArrayList<Element>. 使用它可能就足够了List<Element>。在这种情况下,您应该替换该行

    ArrayList<Element> centerElems=(ArrayList<Element>) pageSource.getAllElements(HTMLElementName.CENTER);
    

    List<Element> centerElems = pageSource.getAllElements(HTMLElementName.CENTER);
    
  • 其次,如果您确实需要列表是一个,那么您可以从结果ArrayList<Element>中创建一个:ArrayList<Element>

    ArrayList<Element> centerElems = new ArrayList<Element>(pageSource.getAllElements(HTMLElementName.CENTER));
    
于 2012-01-01T14:56:03.077 回答