0

我需要解析多个(读取大约 1600 个)HTML 页面并从每个文件中提取以下标签的内容。

    textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">我想要的文字在这里

(这实际上是一个 html textarea 标记)我曾以为我可以使用 DOMparser 但文件包含太多错误,所以我遇到了 JTidy,来自 stackoverflow 上的另一个问题,我尝试使用它。 ..

但这似乎无法将任何页面的 html 转换为 XHTML,因此我可以使用 DOM 解析器。

然后我认为我可以使用正则表达式,但我找不到提取该文本所需的特定表达式,而且我遇到了多个问题/答案,这些问题/答案说不要使用正则表达式来解析 HTML ...

所以基本上我的问题是有没有其他方法可以从格式错误的html中获取我需要的文本?

4

1 回答 1

1

您应该能够直接使用 JTidy 解析您的文档,而无需将它们转换为 XHTML。我曾多次这样做,不久前被授予,但它对我来说很好,而且 HTML 非常丑陋。

编辑:我上次需要解析 HTML 文件时看到的另一个选项是 TagSoup。由于它的 GPL 许可证,我无法在商业产品中使用它,但如果您只需要将此功能作为内部工具,它可能对您有用

于 2011-08-26T19:56:16.150 回答