如果可能的话,你可以试试jsoup——它是一个非常强大的开源 html 库。
这是一个示例,如何获取(和打印)具有normal类的每个元素:
输入HTML:
<span class="selection-link normal coeff816128@Result.draw">....</span>
<span class="selection-link coeff816128@Result.draw">....</span>
<span class="selection coefd816154@Result.draw">....</span>
<span class="selection normal coefd816154@Result.draw">....</span>
(这是你的,但有两个额外span
的没有normal
类)
汤:
/* Input file - containing the html listed above.*/
final File f = new File("test.html");
/*
* Parse the html into a jsoup document. In this example i get it from
* the file, but its possible to parse from string or connect to a
* website.
*/
Document doc = Jsoup.parse(f, null);
/* Iterate over eacht element */
for( Element element : doc.select("*.normal") )
{
System.out.println(element);
}
随着*.normal
您选择每个带有 class 的元素normal
。但是,如果您只不想使用带有span
标签的那些span.normal
。
有关 Jsoup 选择器 api 的文档,请参见此处:http: //jsoup.org/cookbook/extracting-data/selector-syntax
顺便提一句。如果你想使用 DOM 选择器而不是select()
:doc.getElementsByClass("normal")