1

我有一个字符串类型,它将以格式返回数千条记录

key1,val1,val2,val3,val4,val5:key2,val6,val7,val8,val9,val10:key3,val11,val12,val13,val14,val15

我想将它作为 Key,List 分配给字典,所以它看起来像

key1,[val1,val2,val3,val4,val5]

key2,[val6,val7,val8,val9,val10]

key3,[val11,val12,val13,val14,val15]

. . .

字符串中的所有键都是唯一的,并且所有记录的列表大小都是恒定的。

目前我正在使用拆分并使用循环每个记录

    //short example string - may contain 1000's
    string newstr = @"key1,val1,val2,val3,val4,val5:key2,val6,val7,val8,val9,val10:key3,val11,val12,val13,val14,val15";

    Dictionary<string, List<string>> mydictionary = new Dictionary<string, List<string>>();
    foreach (string item in newstr.Split(':'))
    {
        List<string> list = new List<string>(item.Split(','));
        mydictionary.Add(list[0], list);        
    }

我的问题是,有没有更有效/更快的方法来使用 C#4.0 而不是循环来处理 1000 条记录?

更新:测试了各种答案后,以下是“正确”时间

在此处输入图像描述

static void Main(string[] args)
{
    System.IO.StreamReader myFile =  new System.IO.StreamReader(@"C:\Users\ooo\Desktop\temp.txt");
    string newstr = myFile.ReadToEnd();
    myFile.Close();

    TimeSpan ts;
    TimeSpan te;
    Stopwatch stopWatch = new Stopwatch();
    stopWatch.Start();


    ts = stopWatch.Elapsed;
    Dictionary<string, List<string>> mydictionary = new Dictionary<string, List<string>>();
    foreach (string item in newstr.Split(':'))
    {
        List<string> list = new List<string>(item.Split(','));
        mydictionary.Add(list[0], list);
    }
    te = stopWatch.Elapsed;
    Console.WriteLine("MyTime: " + (te - ts).ToString());



    ts = stopWatch.Elapsed;
    var result = newstr.Split(':')
         .Select(line => line.Split(','))
         .ToDictionary(bits => bits[0],
                       bits => bits.Skip(1).ToList());
    te = stopWatch.Elapsed;
    Console.WriteLine("JonSkeet: " + (te - ts).ToString());


    ts = stopWatch.Elapsed;
    string[] keysAndValues = newstr.Split(':');
    var newdictionary = new Dictionary<string, List<string>>(keysAndValues.Length);
    foreach (string item in keysAndValues)
    {
        List<string> list = new List<string>(item.Split(','));
        newdictionary.Add(list[0], list);
    }
    te = stopWatch.Elapsed;
    Console.WriteLine("Joe: " + (te - ts).ToString());


    Console.WriteLine("Records: " + mydictionary.Count.ToString());


    stopWatch.Stop();
}
4

3 回答 3

3

以下可能更快,因为字典的构建具有避免重新分配所需的容量:

//short example string - may contain 1000's     
string newstr = ...;

string[] keysAndValues = newstr.Split(':');
var mydictionary = new Dictionary<string, List<string>>(keysAndValues.Length);
foreach (string item in keysAndValues)     
{         
    List<string> list = new List<string>(item.Split(','));         
    mydictionary.Add(list[0], list);
    // remove key from list to match Jon Skeet's implementation
    list.RemoveAt(0);
} 

虽然比 Jon Skeet 的 LINQ 版本可读性差。

于 2012-09-18T10:10:31.250 回答
2

运行您针对 LINQ 解决方案(如 @JonSkeet 的)发布的代码表明,对于 1000 多条记录,LINQ 花费的时间大约是当前方法的两倍。

因此要回答你的问题:

有没有更有效/更快的方法来使用 C#4.0 而不是循环对 1000 条记录执行此操作?

我会说不。

基准测试代码:

 var value = "key{0},val1,val2,val3,val4,val5:";
 string newstr = "";
 for (int i = 0; i <= 1000; i++)
 {
     newstr += String.Format(value, i + 1);
 }

 var sw = new System.Diagnostics.Stopwatch();
 sw.Start();
 Dictionary<string, List<string>> mydictionary = new Dictionary<string, List<string>>();
 foreach (string item in newstr.Split(':'))
 {
     List<string> list = new List<string>(item.Split(','));
     mydictionary.Add(list[0], list);
 }
 sw.Stop();
 Console.WriteLine("Looping time: " + sw.Elapsed.ToString());
 sw.Reset();
 sw.Start();
 var result = newstr.Split(':')
                    .Select(line => line.Split(','))
                    .ToDictionary(bits => bits[0],
                                  bits => bits.Skip(1).ToList());
 sw.Stop();
 Console.WriteLine("LINQ time: " + sw.Elapsed.ToString());
 Console.ReadKey(); 
于 2012-09-18T10:04:55.650 回答
2

听起来你想要这样的东西:

var result = text.Split(':')
                 .Select(line => line.Split(','))
                 .ToDictionary(bits => bits[0],
                               bits => bits.Skip(1).ToList());

当然,它可能不会更有效率……您是否测量过它需要这样做?如果您只是为“数千”条记录执行此操作,我希望它会在眨眼之间完成。此外,我希望任何 IO(网络、磁盘)在此代码之前成为瓶颈。

从您的评论中:

它实际上非常快而且不是瓶颈,但如果有更快的替代方案,我总是尽量避免循环

不要那样做。瞄准最简单的代码来完成这项工作,然后检查它是否表现得足够好。我个人更喜欢我的基于 LINQ 的代码,但您现有的代码也很好。任何更快的替代方案都可能最终变得更加难以编写、读取和维护。如果收益微不足道,您为什么要为此付出努力?

请注意,我的代码没有将键作为列表中的第一个值 - 它与规范匹配,但与您的示例代码不匹配。

于 2012-09-18T09:46:42.443 回答