我需要解析一些大文本文件并提取Display name
,并且area code
仅当它与以下模式匹配时:
- 行开头
display name
(任意数量的单词,但不能包含数字或特殊字符) - 后跟 6 位数字(可以包含空格)
- 后跟
#text
标签
输入文件
John doe 123 456 #text some text
Test 123456 #text
Test$test 123456 #text
Test123 345678 #text
Test 123 #test
Test 123456 #test1
Test 123g45 #test
输入和预期输出
John doe 123 456 #text some text
Display name: John doe
Area code: 123 456
Test 123456 #text
Display name: Test
Area code: 123456
Test$test 123456 #text
Invalid, display name contains special character
Test123 345678 #text
Invalid, display name contains digits
Test 123 #test
Invalid, area code contains only 3 digits
Test 123456 #test1
Invalid, contains invalid tag
Test 123g45 #test
Invalid, area code contains letters
等等
我知道如何打开文本文件并逐行读取,但在编写正则表达式时遇到了麻烦。
这是我尝试过的:
private static void Main(string[] args)
{
string text = "John Doe 123 45 #text Lorem ipsum dolor :)";
string pattern = @"(\w+)*([0-9]{2,5}).([0-9]{2,5}).#text";
Match match = Regex.Match(text, pattern, RegexOptions.IgnoreCase);
if (match.Success)
{
string key = match.Groups[0].Value;
Console.WriteLine(key);
}
}
编辑:
这里还有一些解释
显示名称
显示名称可以包含任意数量的单词,例如
John Michael Smith
有效,因为John
是名字、Michael
中间名和Smith
姓氏。Šljaker
也是有效的显示名称,因为它是某人的昵称,并且可能包含非英文字符。但是带有数字的名称是无效的,例如。John1
. 为什么?这是我们的业务规则,没有数字 :) 我想这\w
在这里会起作用,a-zA-Z
但不会,因为它不会涵盖非英文字母。
区号
业务规则很简单:它必须包含 6 个数字,我们不关心它们的格式。所有这些都是有效的区号:123456、12 34 56、1234 56 等。Regex 不需要修剪空格,我将在代码中处理。
任何帮助将不胜感激!