我需要 reg 表达式来从中文中找到英文文本并为其添加一个类。
示例:输入
<p>当然,你要学习<a href='#' target='_blank'>“<b>Megento</b>”</a></p>
输出应该是:
<p>当然,你要学习<a href='#' target='_blank'>“<b><span class="english">Megento</span></b>”</a></p>
我需要 reg 表达式来从中文中找到英文文本并为其添加一个类。
示例:输入
<p>当然,你要学习<a href='#' target='_blank'>“<b>Megento</b>”</a></p>
输出应该是:
<p>当然,你要学习<a href='#' target='_blank'>“<b><span class="english">Megento</span></b>”</a></p>
.NET 正则表达式可以根据 Unicode 字符范围进行匹配(请参阅Unicode 类别或 Unicode 块:)\p{}
。例如,正则表达式\p{IsBasicLatin}
将匹配x
,但不匹配Ǝ
(U+018E:Latin Capital Letter Reversed E)。
因此,使用它来匹配元素的文本内容是很有可能的。
但不要使用正则表达式来解析 HTML 本身。使用 HTML 解析器处理 HTML,然后使用正则表达式查看文本内容。