2

嗨,我一直在胡闹一段时间,认为是时候寻求帮助了......

我正在尝试从古怪的字符串中返回所有长于 5 个字符的大写字符(非数字或特殊字符短语)序列。

因此对于:

02/02/12-02:45 PM(CKI)-DISC RSPNS SRVD 01/31/12-PRINTED DISCOVERY:spina.bp.doc(DGB)   
01/27/12-ON CAL-FILED NOTICE OF TRIAL(JCX) 01/24/12-SENT OUR DEMANDS(Auto-Gen) 01/23/12-
02:31  PM-File pulled and given to KG for responses.(JLS) 01/20/12(PC)-rcd df jmt af

我想返回一个列表

光盘 RSPNS SRVD

印刷发现

提交的审判通知

发送我们的需求

我一直在玩弄以下变体:

[A-Z][A-Z\d]+ 
[A-Z][A-Z\d]+ [A-Z][A-Z\d]+"

然而,这有点超出了我对 Regex 的了解范围。

编辑

我正在努力

string[] capWords = Regex.Split(d.caption, @"[A-Z\s]{5,}");
foreach (var u in capWords) { Console.WriteLine(u); }

输出:

02/02/12-02:45 PM(CKI)- 01/31/12-

:spina.bp.doc(DGB) 01/27/12-

(JCX) 2012 年 1 月 24 日- (Auto-Gen) 01/23/12-02:31 PM-文件被拉出并交给 KG 以供回复。(JLS) 2012 年 1 月 20 日(PC)-rcd df jmt af

肯德尔的建议输出:

02/02/12-02:45 PM(CKI)- 01/31/12-

:spina.bp.doc(DGB) 01/27/12-

(JCX) 2012 年 1 月 24 日- (Auto-Gen) 01/23/12-02:31 PM-文件被拉出并交给 KG 以供回复。(JLS) 2012 年 1 月 20 日(PC)-rcd df jmt af

4

3 回答 3

3

干得好:

[AZ\s]{5,}

测试并仅返回您列出的项目。

解释:

[A-Z\s]- 仅匹配大写字母和空格

{5,}- 匹配必须至少为 5 个字符,字符数没有上限

代码:

MatchCollection matches = Regex.Matches(d.caption, @"[A-Z\s]{5,}");
foreach (Match match in matches)
{
    Console.WriteLine(match.Value);
}
于 2012-05-04T17:11:03.410 回答
2

尝试这个。我假设您希望去掉前导/尾随空格。

[A-Z][A-Z ]{4,}[A-Z]

另外,我认为您不需要 Regex.Split。

var matches = Regex.Matches(d.caption, @"[A-Z][A-Z ]{4,}[A-Z]");
foreach (var match in matches)
{
    Console.WriteLine(match.Value);
}

你也可以这样做:

var matches = Regex.Matches(d.caption, @"[A-Z][A-Z ]{4,}[A-Z]")
                   .OfType<Match>()
                   .Select(m => m.Value);
foreach (string match in matches)
{
    Console.WriteLine(match);
}
于 2012-05-04T17:18:23.460 回答
0

您曾要求使用单一的正则表达式解决方案,但使用给定的标准和示例,我无法获得单个正则表达式来计算字符串并忽略某种字符类型(空格)。失败发生在像 ON CAL 这样的字符组上,它应该作为匹配失败,但由于总字符数而通过。

因此,为了确保只有 5 个大写字符的字符组存在,我不得不使用两个正则表达式。这有点麻烦,我可以使用字符串方法更快、更简单地做到这一点。

如果您可以列出有关源文本格式的一些确定性,这可能适用于单个正则表达式。例如,如果我们知道您要查找的字符组总是以破折号开头并以非破折号的标点符号结尾,或者以数字结尾。

5 PM( --- 失败(前面没有破折号)

(CKI) --- 失败(前面没有破折号)

-DISC RSPNS SRVD 0 --- 通过

-打印发现:---通过

-ON CAL- --- FAIL(以破折号结束)

-提交的试验通知(---通过

-发送我们的需求(---通过

除此之外,我已经包含了可以通过以下两种方式之一为您提供结果的代码。我更喜欢第二种。

        String source1 = "02/02/12-02:45 PM(CKI)-DISC RSPNS SRVD 01/31/12-PRINTED
 DISCOVERY:spina.bp.doc(DGB) 01/27/12-ON CAL-FILED NOTICE OF TRIAL(JCX) 01/24/12-SENT
 OUR DEMANDS(Auto-Gen) 01/23/12- 02:31 PM-File pulled and given to KG for responses.(JLS) 01/20/12(PC)-rcd df jmt af ";

    String assembledString;

    public void bumbleBeeTunaTest()
    {
        String strippedString = source1.Replace(" ", "");

        String regString1 = ""; 
        String regString2 = @"([A-Z]{6,})";
        String matchHold1,matchHold1First,matchHold1Last,matchHold1Middle;
        Int32 matchHold1Len;


        Regex regExTwo = new Regex(regString2);

        MatchCollection regMatch2 = regExTwo.Matches(strippedString);


        foreach (Match match2 in regMatch2)
        {
            matchHold1 = match2.Groups[1].Value;
            matchHold1Len = matchHold1.Length;
            matchHold1First = matchHold1.Substring(0,1);
            matchHold1Last = matchHold1.Substring(matchHold1Len - 1,1);
            matchHold1Middle = matchHold1.Substring(1, matchHold1Len - 2);


            Debug.Print("Stripped String Matches - " + matchHold1);


            regString1 = @"(" + matchHold1First + "[" + matchHold1Middle+  " ]{" + (matchHold1Len -1) + ",}" + matchHold1Last + ")";

            Regex regExOne = new Regex(regString1);

            MatchCollection regMatch1 = regExOne.Matches(source1);

            regMatch1 = regExOne.Matches(source1);



            foreach (Match match1 in regMatch1)
            {

                Debug.Print("Re-Assembled Matches :" + match1.Groups[1].Value.ToString());
            }

        }

        // Does the same thing as the above.  Just a little simpler.
        for (int i = 0; i < source1.Length; i++)
        {
            if (char.IsUpper(source1[i]) | char.IsWhiteSpace(source1[i]))
            {
                assembledString += source1[i];
            }
            else
            {
                if (!string.IsNullOrEmpty(assembledString))
                {
                    if (assembledString.Count(char.IsUpper) > 5)
                    {
                        Debug.Print("Non Reg Ex Version "  + assembledString);
                    }
                    assembledString = "";
                }
            }
        }
    }

输出看起来像这样。

Stripped String Matches - DISCRSPNSSRVD
Re-Assembled Matches :DISC RSPNS SRVD
Stripped String Matches - PRINTEDDISCOVERY
Re-Assembled Matches :PRINTED DISCOVERY
Stripped String Matches - FILEDNOTICEOFTRIAL
Re-Assembled Matches :FILED NOTICE OF TRIAL
Stripped String Matches - SENTOURDEMANDS
Re-Assembled Matches :SENT OUR DEMANDS
Non Reg Ex Version DISC RSPNS SRVD 
Non Reg Ex Version PRINTED DISCOVERY
Non Reg Ex Version FILED NOTICE OF TRIAL
Non Reg Ex Version SENT OUR DEMANDS
于 2012-05-05T15:54:24.543 回答