我正在尝试为一堂课学习正则表达式模式。我正在制作一个简单的 HTML Lexer/Parser。我知道这不是制作 Lexer/Parser 的最佳或最有效的方法,但它只是为了理解 Regex 模式。
所以我的问题是,如何创建一个模式来检查字符串是否不包含任何 HTML 标记(即<TAG>
)并且不包含任何 HTML 实体(即&ENT;
)?
到目前为止,这是我能想到的,但它仍然不起作用:
.+?(^(?:&[A-Za-z0-9#]+;)^(?:<.*?>))
编辑: 唯一的问题是我不能否定最终结果我需要找到一个完整的模式来完成这项任务,如果可能的话,虽然它可能不漂亮。我从来没有提到过,但它几乎应该匹配 HTML 页面中的任何简单文本。