我有一个包含一些 HTML 代码的字符串。我想知道 HTML 代码是代表可见文本还是图像。我使用 Java 使用以下正则表达式解决了这个问题(我知道你不能使用 RegExps 解析 HTML,但我认为我所掌握的 RegExps 就足够了)。
public static String regex_html_tags_1 = "<\\s*br\\s*[/]?>";
public static String regex_html_tags_2 = "<\\s*([a-zA-Z0-9]+)\\s*([^=/>]+\\s*=\\s*[^/>]+\\s*)*\\s*/>";
public static String regex_html_tags_3 = "<\\s*([a-zA-Z0-9]+)\\s*([^=>]+\\s*=\\s*[^>]+\\s*)*\\s*>\\s*</\\s*\\1\\s*>";
public static String[] HTMLWhiteSpaces = {" ", " "};
使用这些 RegExps 的代码适用于字符串,如
<h2></h2>
或类似的。但是一个字符串
<img src="someImage.png"></img>
也被认为是空的。
有没有人比使用 RegExps 来确定某些 HTML 代码在被浏览器解释时是否真的代表人类可读文本更好的主意?或者你认为我的方法最终会成功吗?
提前非常感谢。