我需要解析多个(读取大约 1600 个)HTML 页面并从每个文件中提取以下标签的内容。
textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">我想要的文字在这里
(这实际上是一个 html textarea 标记)我曾以为我可以使用 DOMparser 但文件包含太多错误,所以我遇到了 JTidy,来自 stackoverflow 上的另一个问题,我尝试使用它。 ..
但这似乎无法将任何页面的 html 转换为 XHTML,因此我可以使用 DOM 解析器。
然后我认为我可以使用正则表达式,但我找不到提取该文本所需的特定表达式,而且我遇到了多个问题/答案,这些问题/答案说不要使用正则表达式来解析 HTML ...
所以基本上我的问题是有没有其他方法可以从格式错误的html中获取我需要的文本?