java - 如何使用 Jericho HTML 解析器在特定标签之间获取文本和其他标签？

Question

我有一个包含特定标签的 HTML 文件，例如<TABLE cellspacing=0>，结束标签是</TABLE>. 现在我想获取这些标签之间的所有内容。我在 Java 中使用 Jericho HTML 解析器来解析 HTML。是否可以在 Jericho 解析器中的特定标签之间获取文本和其他标签？

例如：

<TABLE  cellspacing=0>    
  <tr><td>HELLO</td>  
  <td>How are you</td></tr>
</TABLE>

回答：

<tr><td>HELLO</td>  
<td>How are you</td></tr>

score 2 · Accepted Answer

找到表格的元素后，您所要做的就是调用 getContent().toString()。下面是一个使用示例 HTML 的快速示例：

Source source = new Source("<TABLE  cellspacing=0>\n" +
    "  <tr><td>HELLO</td>  \n" +
    "  <td>How are you</td></tr>\n" +
    "</TABLE>");

Element table = source.getFirstElement();
String tableContent = table.getContent().toString();

System.out.println(tableContent);

输出：

    <tr><td>HELLO</td>  
    <td>How are you</td></tr>

score 0 · Accepted Answer

Aby，我遍历所有元素的代码并在屏幕上显示。也许能帮到你。

        List<Element> elementListTd = source.getAllElements(HTMLElementName.TD);

        //Scroll through the list of elements "td" page
        for (Element element : elementListTd) {
            if (element.getAttributes() != null) {
                String td = element.getAllElements().toString();
                String tag = "td";
                System.out.println("TD: " + td);
                System.out.println(element.getContent());
                String conteudoAtributo = element.getTextExtractor().toString();
                System.out.println(conteudoAtributo);

                if (td.contains(palavraCompara)) {
                    tabela.add(conteudoAtributo);
                }

            }

java - 如何使用 Jericho HTML 解析器在特定标签之间获取文本和其他标签？

2 回答 2

Related

Reference