0

我在 java 中使用 jericho html 解析器。我想从网站获取数据。在网站html内容是这样的......

<div class="class_div">
   <div class="class_div2">All contents...</div>`
     <span class="equals">Content 1</span>
     <span class="equals">Content 2</span>
     <span class="equals">Content 3</span>
     <span class="equals">Content 4</span>
 </div>

我想获取内容 1、内容 2、内容 3、内容 4。如何获取这个?

我正在使用此代码

String sourceUrlString="<website url>";
if (sourceUrlString.indexOf(':')==-1)
sourceUrlString="http:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
Element bodyContent = source.getElementByClass("equals");`
4

1 回答 1

0

问题出在哪里?使用您的代码,您可以获得每个Element- 使用那些您可以获得他们的文本:

Source source = new Source(/* ... */);
List<Element> elements = source.getAllElementsByClass("equals");

for( Element element : elements )
{
    /*
     * 'element.getTextExcrator().toString()' returns the text of the element
     */
    System.out.println(element.getTextExtractor().toString());
}

输出:

内容 1
内容 2
内容 3
内容 4

于 2013-02-04T16:14:45.470 回答