管子周围有一百万个备忘单,它们以不同的理解水平列举了由各种版本和 HTML 规范指定的字符实体。我不想相信其中任何一个,所以我想我会把它扔在这里,看看是否有人发布更权威的答案。
因此,假设我想使用正则表达式匹配任何和所有字符引用和实体。我会从/&(?:#(?:x[0-9a-f]+|[0-9]+)|[a-z]{???,???});/i
. 但是什么会进入???
s?我可以想到有两个字符长的实体,比如lt
和gt
,但是在 HTML 的任何规范中是否有任何单字母实体?同样,最长的实体是什么?最后,除了直接键入它们之外,这是在 HTML 中表达文字字符的仅有的三种语法,不是吗?