java - 格式错误的 XML/HTML 解析

Question

我需要解析多个（读取大约 1600 个）HTML 页面并从每个文件中提取以下标签的内容。

    textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">我想要的文字在这里

（这实际上是一个 html textarea 标记）我曾以为我可以使用 DOMparser 但文件包含太多错误，所以我遇到了 JTidy，来自 stackoverflow 上的另一个问题，我尝试使用它。 ..

但这似乎无法将任何页面的 html 转换为 XHTML，因此我可以使用 DOM 解析器。

然后我认为我可以使用正则表达式，但我找不到提取该文本所需的特定表达式，而且我遇到了多个问题/答案，这些问题/答案说不要使用正则表达式来解析 HTML ...

所以基本上我的问题是有没有其他方法可以从格式错误的html中获取我需要的文本？

score 1 · Accepted Answer

您应该能够直接使用 JTidy 解析您的文档，而无需将它们转换为 XHTML。我曾多次这样做，不久前被授予，但它对我来说很好，而且 HTML 非常丑陋。

编辑：我上次需要解析 HTML 文件时看到的另一个选项是 TagSoup。由于它的 GPL 许可证，我无法在商业产品中使用它，但如果您只需要将此功能作为内部工具，它可能对您有用

java - 格式错误的 XML/HTML 解析

1 回答 1

Related

Reference