4

我有一个以下格式的字符串数组,其中每个字符串都以一系列三个字符开头,指示它包含的数据类型。例如:

ABC|.....
DEF|...
RHG|1........
RHG|2........
RHG|3........
XDF|... ...

我想找到任何重复的行(本例中为 RHG)并用特殊字符标记最后一行:

>RHG|3…………

最好的方法是什么?我当前的解决方案有一种方法来计算行标题并创建一个包含标题计数的字典。

protected Dictionary<string, int> CountHeaders(string[] lines)
{
    Dictionary<string, int> headerCounts = new Dictionary<string, int>();
    for (int i = 0; i < lines.Length; i++)
    {
        string s = lines[i].Substring(0, 3);

        int value;
        if (headerCounts.TryGetValue(s, out value))
            headerCounts[s]++;
        else
            headerCounts.Add(s, 1);
    }
    return headerCounts;
}

在主要的解析方法中,我选择了重复的行。

var repeats = CountHeaders(lines).Where(x => x.Value > 1).Select(x => x.Key);
foreach (string s in repeats)
{
    // Get last instance of line in lines and mark it
}

这是我所得到的。我想我可以用另一个 LINQ 查询做我想做的事,但我不太确定。另外,我不禁觉得有一个更优化的解决方案。

4

3 回答 3

4

您可以使用 LINQ 来实现这一点。

输入字符串:

var input = @"ABC|.....
DEF|...
RHG|1........
RHG|2........
RHG|3........
XDF|......";

LINQ询问:

var results = input.Split(new[] { Environment.NewLine })
                   .GroupBy(x => x.Substring(0, 3))
                   .Select(g => g.ToList())
                   .SelectMany(g => g.Count > 1 ? g.Take(g.Count - 1).Concat(new[] { string.Format(">{0}", g[g.Count - 1]) }) : g)
                   .ToArray();

我使用Select(g => g.ToList())投影在进一步的查询步骤中进行g.Count O(1)操作。

您可以Join使用以下方法将数组转换为一个字符串String.Join

var output = String.Join(Environment.NewLine, results);
于 2013-04-02T17:39:56.847 回答
1

或者,您可以找到带有反向引用正则表达式的重复行。我使用您的示例数据编写了这个 hacky 正则表达式,它匹配以前面的“标签”开头的行,管道分隔值。

^(?<Tag>.+)[|].+[\n\r](\k<Tag>[|].+[\n\r])+

匹配范围从第一个 RHG 行的开头开始,一直选择到最后一个 RHG 行。

于 2013-04-02T17:49:59.657 回答
0

这是一个在一个 Linq 语句中包含解析和计数的示例 - 如果您愿意,请随时将其分解:

string[] data = new string[]
{
    "ABC|.....",
    "DEF|...",
    "RHG|1........",
    "RHG|2........",
    "RHG|3........",
    "XDF|......"
};

data.Select(d=> d.Split('|'))                     // split the strings
    .Select(d=> new { Key = d[0], Value = d[1] }) // select the key and value
    .GroupBy (d => d.Key)                         // group by the key
    .Where(g=>g.Count() > 1 )                     // find duplicates
    .Select(d => d.Skip(1))                       // select the repeating elements
    .SelectMany(g=>g)                             // flatten into a single list
    ;                      

这将为您提供重复的键/值对列表。所以使用样本数据它将返回

Key Value 
RHG 2........ 
RHG 3........ 

我不确定你所说的“标记”这条线是什么意思,但是......

于 2013-04-02T17:35:21.643 回答