2

这个问题与我之前提出的问题(This Question)非常相似,但是我需要稍微改变一下。

所以在前面的问题中这个字符串

伯克希尔哈撒韦公司(代码:BRK;NAICS:524126、511130、335212、445292、511110、442210;Duns:00-102-4314) Walt Disney Co(代码:DIS;NAICS:713110、512110、711211、5152: 00-690-4700)

使用这些值创建 2 个匹配项:

伯克希尔哈撒韦公司
华特迪士尼公司

现在,我希望匹配项包含 Ticker: XXX 或优先选择 Ticker: XXX 的公司名称。

因此,对于上面的示例,它将匹配:

代码: BRK
代码: DIS

对于这个例子:

伯克希尔哈撒韦公司 (NAICS: 524126, 511130, 335212, 445292, 511110, 442210; Duns: 00-102-4314) Walt Disney Co (Ticker: DIS; NAICS: 713110, 512110, 711211, 0-690120; Duns:-0 4700)

结果将是:

伯克希尔哈撒韦公司
代码: DIS

我想我只是不太了解上一个问题中的正则表达式解决方案,无法理解如何修改它以适应这种模式。

正则表达式是用 C# 编写的

顺便说一句,以前的正则表达式解决方案是:

(?!\s*$)(.*?)(?:\([^)]*(?:(?:SIC|NAICS):[^)]*)+\)|$)

我想现在应该改为:

(?!\s*$)(.*?)(?:\([^)]*(?:(?:SIC|NAICS|Duns):[^)]*)+\)|$)

但是如果 Ticker 存在,我如何提取 Ticker: 并选择该值而不是另一个值?

4

2 回答 2

4

我还在学习正则表达式,所以我不确定你是否可以在组上使用条件逻辑。不过,作为替代方案,您可以按如下方式修改您的正则表达式,以便它还为股票代码捕获一个组(如果存在):

(?!\s*$)(.*?)(?:\((Ticker:[^;]+)?[^)]*(?:(?:SIC|NAICS|Duns):[^)]*)+\)|$)

然后你可以在你的 c# 代码中执行逻辑。我想这样的事情会起作用:

Regex regex = new Regex(@"(?!\s*$)(.*?)(?:\((Ticker:[^;]+)?[^)]*(?:(?:SIC|NAICS|Duns):[^)]*)+\)|$)");
Match match = regex.Match("Berkshire Hathaway Inc (NAICS: 524126, 511130, 335212, 445292, 511110, 442210; Duns: 00-102-4314) Walt Disney Co (Ticker: DIS; NAICS: 713110, 512110, 711211, 515120; Duns: 00-690-4700)");  
while (match.Success) {
    if (match.Groups[2].Success)
    {
        Console.WriteLine(match.Groups[2].Value);
    }
    else
    {
        Console.WriteLine(match.Groups[1].Value);
    }
    match = match.NextMatch();
}

输出:

Berkshire Hathaway Inc 
Ticker: DIS
于 2012-04-04T19:06:04.410 回答
2

我建议使用像Expresso这样的工具来计算你的正则表达式。它专为 C# Regex 设计,甚至可以将您需要使用的代码复制到剪贴板中。您可以将示例粘贴到工具中,然后调整您的正则表达式,直到它起作用。我发现像这样的工具是编写正则表达式的必备工具。

于 2012-04-04T17:14:52.733 回答