c# - 需要正则表达式才能在中文中找到英文单词

Question

我需要 reg 表达式来从中文中找到英文文本并为其添加一个类。

示例：输入

<p>当然，你要学习&lt;a href='#' target='_blank'>“&lt;b>Megento</b>”&lt;/a></p>

输出应该是：

<p>当然，你要学习&lt;a href='#' target='_blank'>“&lt;b><span class="english">Megento</span></b>”&lt;/a></p>

score 0 · Accepted Answer

.NET 正则表达式可以根据 Unicode 字符范围进行匹配（请参阅Unicode 类别或 Unicode 块：）\p{}。例如，正则表达式\p{IsBasicLatin}将匹配x，但不匹配Ǝ（U+018E：Latin Capital Letter Reversed E）。

因此，使用它来匹配元素的文本内容是很有可能的。

但不要使用正则表达式来解析 HTML 本身。使用 HTML 解析器处理 HTML，然后使用正则表达式查看文本内容。

1 回答 1