10

我将一个字符串解析为 DateTime 数百万次:

public static CultureInfo ci = CultureInfo.InvariantCulture;
while (!reader.EndOfStream)
{      
      line = reader.ReadLine();
      string[] fields = line.Split(' ');
      DateTime newDT = DateTime.ParseExact(fields[0], "yyyyMMddTHHmmssfff", ci);
}

我的分析器强调 ParseExact 是花费大量时间的一部分。是否有任何其他方法/方法可以将字符串解析为更快的 DateTime?

跟进1:

1)我试过这个 - 但速度是一样的

bool OK = DateTime.TryParseExact(fields[0], "yyyyMMddTHHmmssfff", null, System.Globalization.DateTimeStyles.None,out DT);

2)

我尝试编写自己的解析器 - 但这也很慢:

public static DateTime fastParse(ref string s)
{
           return new DateTime(int.Parse(s.Substring(0,4)), int.Parse(s.Substring(4,2)),int.Parse(s.Substring(6,2)), int.Parse(s.Substring(9,2)),int.Parse(s.Substring(11,2)),int.Parse(s.Substring(13,2)),int.Parse(s.Substring(15, 3)));
}

跟进2

我尝试了 Master117 存储值的建议-再次没有更快-也许问题出在构造上?

     public class fastParseData
        {
            int year;
            int mon;
            int day;
            int hour;
            int min; 
            string previousSlice = "";

            public DateTime fastParse(ref string s)
            {
                if (previousSlice != s.Substring(0, 12))
                {
                     year=int.Parse(s.Substring(0,4));
                     mon=int.Parse(s.Substring(4,2));
                     day=int.Parse(s.Substring(6,2));
                     hour= int.Parse(s.Substring(9,2));
                     min = int.Parse(s.Substring(11,2));
                     previousSlice = s.Substring(0, 12);
                }

                return new DateTime(year, mon, day, hour,min, int.Parse(s.Substring(13, 2)), int.Parse(s.Substring(15, 3)));
            }

        }

跟进3

                public class fastParseData
                {
                    int year;
                    int mon;
                    int day;
                    int hour;
                    int min; 
                    string previousSlice = "";
                    DateTime previousDT;

                    public DateTime fastParse(ref string s)
                    {
                        if (previousSlice != s.Substring(0, 12))
                        {
                             year=int.Parse(s.Substring(0,4));
                             mon=int.Parse(s.Substring(4,2));
                             day=int.Parse(s.Substring(6,2));
                             hour= int.Parse(s.Substring(9,2));
                             min = int.Parse(s.Substring(11,2));
                             previousSlice = s.Substring(0, 12);
                            previousDT = new DateTime(year, mon, day, hour,min,0,0);
                        }
                        return previousDT.AddMilliseconds((int.Parse(s.Substring(13, 2))*1000)+int.Parse(s.Substring(15, 3)));
                    }

                }

跟进4

从我的分析器看来,症结似乎是

int.Parse(s.Substring(13, 2))

Parse 位比子字符串更昂贵。

我试过了

int.TryParse(s.Substring(13, 2),NumberStyles.None,ci, out secs)
Convert.ToInt32(s.Substring(13, 2));

但同样 - 速度没有差异。

有没有更快的方法来解析 int?

4

6 回答 6

8

拆分字符串的想法在正确的轨道上,但是子字符串很慢。每当我拆分字符串时,我都会使用字符访问器。yyyyMMddTHHmmssfff 免责声明:T

public class DateParser1
{
    private static System.String DateFormat="yyMMddTHHmmssfff";

    public static System.DateTime GetDate(System.String SourceString, int Offset=0) // Offset eliminates need for substring
    {
        int Year=0;
        int Month=0;
        int Day=0;
        int Hour=0;
        int Minute=0;
        int Second=0;
        int HourOffset=0;
        int MS=0;
        if(SourceString.Length+Offset<DateFormat.Length) throw new System.Exception(System.String.Format("Date Too Short {0} For {0}",SourceString.Substring(Offset),DateFormat));
        for(int i=0;i<DateFormat.Length;i++)
        {
            System.Char c=SourceString[Offset+i];
            switch(DateFormat[i])
            {
                  case 'y':
                      Year=Year*10+(c-'0');
                      break;
                  case 'M':
                      Month=Month*10+(c-'0');
                      break;
                  case 'd':
                      Day=Day*10+(c-'0');
                      break;
                  case 'T':
                      if(c=='p'||c=='P')
                           HourOffset=12;
                      break;
                  case 'h':
                      Hour=Hour*10+(c-'0');
                      if(Hour==12) Hour=0;
                      break;
                  case 'H':

                      Hour=Hour*10+(c-'0');
                      HourOffset=0;
                      break;
                  case 'm':
                      Minute=Minute*10+(c-'0');
                      break;
                  case 's':
                      Second=Second*10+(c-'0');
                      break;
                  case 'f':
                      MS=MS*10+(c-'0');
                      break;
            }

        }
        if(Year>30) //Change For Your Business Rules
        {
               Year+=1900;
        }
        else
        {
               Year+=2000;
        }
        try
        {
            return new System.DateTime(Year,Month,Day,Hour+HourOffset,Minute,Second,MS);
        }
        catch(System.Exception)
        {
            throw new System.Exception(System.String.Format("Error In Date: {0}/{0}/{0} {0}:{0}:{0}.{0} - {0} {0}",Year,Month,Day,Hour+HourOffset,Minute,Second,MS,DateFormat,SourceString.SubString(Offset,DateFormat.Length)));
        }
    }
}
于 2013-06-04T14:42:37.697 回答
2

您可以编写自己的解析算法,首先将字符串拆分为数组/列表/任何内容,然后使用日期时间构造函数创建日期时间,

DateTime newDT = DateTime(Int32, Int32, Int32, Int32, Int32, Int32, Int32);

由于年/月/日的变化不会那么快,因此您可以对它们进行缓冲,因此字符串操作的数量较少。

http://msdn.microsoft.com/de-de/library/vstudio/system.datetime.aspx

一种简单的方法是存储前 8 个字母,例如 string a = fields[0].slice(0,8) (目前不知道正确的操作),现在您解析它们并制作整数,但是在下一次运行中,您再次对它们进行切片并测试 a = new a,如果是,则使用上次的整数而不是再次解析它们,自然为此您需要存储 a 和整数

因此,由于现在问题似乎是构造时间,您应该尝试添加经过的时间,通过使用 addSecond 等检查您的整数是否比以前更高/更低,或者您可以使用您的构造并将值设置为您的新时间.

尝试这个:

            public class fastParseData
            {
                int year;
                int mon;
                int day;
                int hour;
                int min; 
                string previousSlice = "";
                DateTime previousDT;

                public DateTime fastParse(ref string s)
                {
                    if (previousSlice != s.Substring(0, 12))
                    {
                         year=int.Parse(s.Substring(0,4));
                         mon=int.Parse(s.Substring(4,2));
                         day=int.Parse(s.Substring(6,2));
                         hour= int.Parse(s.Substring(9,2));
                         min = int.Parse(s.Substring(11,2));
                         previousSlice = s.Substring(0, 12);
                         previousDT = new DateTime(year, mon, day, hour,min,0,0);
                    }
                    return previousDT.ParseExact(year, mon, day, hour,min, int.Parse(s.Substring(13, 2)), int.Parse(s.Substring(15, 3));
                }

            }

这样,您只有创建一个 DT,然后将时间设置为新的

于 2013-03-29T11:20:56.897 回答
2

This is the code used to benchmark James's code against the framework code (in reference to my comment there). I run this in Release mode, .Net 4.5.2, 32bit console

static void Main(string[] args)
{
    const string date = "2015-04-11T12:45:59";
    const string format = "yyyy-MM-ddTHH:mm:ss";

    var reference = FrameworkParse(date, format);
    var method1 = JamesBarrettParse(date, format);

    if (reference != method1)
    {
        throw new Exception(string.Format("reference date {0} does not match SO date {1}",reference.ToString("s"),method1.ToString("s")));
    }

    const int iterations = 1000000;
    var sw = new Stopwatch();

    //FRAMEWORK PARSE
    Console.Write("Starting framework parse for {0} iterations...", iterations);
    sw.Start();
    DateTime dt;
    for (var i = 0; i < iterations; i++)
    {
        dt = FrameworkParse(date, format);
        if (dt.Minute != 45)
        {
            Console.WriteLine("duh");
        }
    }
    sw.Stop();
    Console.WriteLine("DONE in {0} millis",sw.ElapsedMilliseconds.ToString("F2",CultureInfo.InvariantCulture));

    //James Barrett parse
    Console.Write("Starting JB parse for {0} iterations...", iterations);
    sw.Restart();
    for (var i = 0; i < iterations; i++)
    {
        dt = JamesBarrettParse(date, format);
        if (dt.Minute != 45)
        {
            Console.WriteLine("duh");
        }
    }
    sw.Stop();
    Console.WriteLine("DONE in {0} millis",sw.ElapsedMilliseconds.ToString("F2",CultureInfo.InvariantCulture));

    Console.Write("press any key to exit");
    Console.ReadKey();
}

private static DateTime FrameworkParse(string s, string format, CultureInfo info = null)
{
    var time = DateTime.ParseExact(s, format,
        info ?? CultureInfo.InvariantCulture,
        DateTimeStyles.AdjustToUniversal | DateTimeStyles.AssumeUniversal);
    return time;
}

Output is

Starting framework parse for 1000000 iterations...DONE in 2058.00 millis
Starting JB parse for 1000000 iterations...DONE in 324.00 millis
press any key to exit

于 2015-04-11T15:50:20.417 回答
1

不确定这是否会更快,但是您可以将日期字符串转换为长字符串,然后像这样算术地将其拆分:

string dateStr = "20131108134701234"; //yyyyMMddHHmmssfff
long dateLong = long.Parse(dateStr);

int f = (int) (dateLong % 1000);
int s = (int) ((dateLong % 100000 - f) / 1000);
int mi = (int) ((dateLong % 10000000 - s - f) / 100000);
int h = (int) ((dateLong % 1000000000 - mi - s - f) / 10000000);
int d = (int) ((dateLong % 100000000000 - h - mi - s - f) / 1000000000);
int mo = (int) ((dateLong % 10000000000000 - d - h - mi - s - f) / 100000000000);
int y = (int) ((dateLong % 100000000000000000 - mo - d - h - mi - s - f) / 10000000000000);

DateTime dateDT = new DateTime(y, mo, d, h, mi, s, f);

(天真,未优化的实现)

于 2013-11-08T14:07:07.647 回答
1

类似于詹姆斯巴雷特的回复,但我认为更快,因为它更直接:

假设您有一个格式为 yyMMdd 的日期。

我发现转换它的最快方法是:

var d = new DateTime(
(s[0] - '0') * 10 + s[1] - '0' + 2000, 
(s[2] - '0') * 10 + s[3] - '0', 
(s[4] - '0') * 10 + s[5] - '0')

只需根据您选择的日期格式选择索引。如果您需要速度,您可能不介意函数的“非通用”方式。

此方法大约需要以下 10% 的时间:

var d = DateTime.ParseExact(s, "yyMMdd", System.Globalization.CultureInfo.InvariantCulture);
于 2020-01-30T05:51:23.077 回答
0

这可能是使用并行化的好地方。Parallel.ForEach 可能是一个很好的用途,但您可能想测试其他进行并行化的方法

private static IEnumerable<string> GetLines(TextReader reader)
{
    while (!reader.EndOfStream)
    {
         yield return reader.ReadLine();
    }
}

private static CultureInfo ci = CultureInfo.InvariantCulture;

public static ConcurrentBag ProcessData(TextReader reader)
{
    ConcurrentBag <DateTime> results = new ConcurrentBag <DateTime>();
    char[] seperators = {' '};

    Parallel.ForEach(GetLines(reader), line =>
    {
        //We only need the first field so limit the split to 2
        string[] fields = line.Split(seperators, 2);
        results.Enqueue(DateTime.ParseExact(fields[0], "yyyyMMddTHHmmssfff", ci));
    });

    return results
}

这样做的缺点是您的顺序松散,如果这对您很重要,那么有一个版本 Parallel.ForEach将从 IEnumerable 传入索引。您需要将行号与日期一起存储(可能是 aConcurrentDictionary<long,DateTime>或将 a 存储Tuple<long,DateTime>在包中),然后稍后对数据进行排序。

于 2013-03-29T15:00:56.223 回答