我是正则表达式的新手,有人可以帮我获取用于解析标签的正则表达式吗
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
有所有可能吗?
为了涵盖“所有可能性”,您确实应该使用 HTML 5 的Determining the character encoding rules。这些不能表达为正则表达式。
在 validator.nu 中有一个开源的Java 实现
如果您坚持使用正则表达式,那么这可能会涵盖使用元元素声明的编码的大多数情况(例如,它不会涵盖 XML 声明)。然而,它是肮脏的,做出一些通常(但可能并不总是)正确的假设,我不推荐它。
/<meta[^>]+charset=['"]?(.*?)['"]?[\/\s>]/i