我有一组 40 个字符,它们有自己的代码点。例如,U0678
,u0679
等等。如何根据代码点从文本中检索仅包含这些字符的单词、字符串和子字符串,而忽略所有其他字符?我的旧代码很痛苦
private string token(string x)
{
Regex exclude = new Regex(@"\d|\s+|/|-|[A-Za-z]", RegexOptions.Compiled);
return string.Join(" ",
(from s in Regex.Split(x, "([ \\t{}():;.,!ـ؛،؟ \"\n])")
where !exclude.IsMatch(s)
select s).ToArray());
}
已编辑。假设我有字符串“aaa bbb ccc ddd”。然后我想只检索单词 aaa 和 bbb。然后我想做类似的事情
Regex regEx = new Regex(@"\u0041|\u0042");
Match match = regEx.Match(mystring);
if(match.Success)
then do somthing
但我有 40 个字符。