3

我有一个性能问题。

我正在解析大型文本文件(账单)并根据账单上是否出现某些文本将服务提供商的名称分配给一个变量。

这是我正在做的一个小样本(不要笑,我知道这很混乱)。总而言之,大约有 250 个 if 和 else if。

if (txtvar.BillText.IndexOf("SWGAS.COM") > -1)
   {
       txtvar.Provider = "Southwest Gas";
   }
else if (txtvar.BillText.IndexOf("georgiapower.com") > -1)
   {
       txtvar.Provider = "Georgia Power";
   }
else if (txtvar.BillText.IndexOf("City of Austin") > -1)
   {
       txtvar.Provider = "City of Austin";
   }

// 以此类推 250 次

因为它变得如此之大,我决定采取不同的方法来更清洁、更高效。我最终实现了一个映射,我将它存储在一个外部 .psv 文件中。

我将该映射保存到一个变量中(这只运行一次,大约需要 35 毫秒......

var providerMap =
                    System.IO.File.ReadLines(@"U:\Program\ApplicationFiles\ProvidersList.psv")
                    .Select(line => line.Split('|'))
                    .Select(parts => new Provider() { Pattern = parts[0], Name = parts[1] }).ToList();

...然后遍历每个账单(分配提供者大约需要 2 毫秒,而 if 语句花费的时间不到一半......

foreach (string bills in files)
                                {
                                    string Provider = providerMap.First(p => txtvar.BillText.IndexOf(p.Pattern) > -1).Name;
                                    OtherStuff();
                                }

虽然这个解决方案更干净,但它比 250+ if, else if 慢得多。我使用秒表方法发现,更清洁的方法实际上比数百个 if 语句慢一倍。(我测试了 if 语句的开头和结尾的账单以及类似结果的映射)

有人可以向我解释一下吗?也许我做错了什么?谢谢!

4

3 回答 3

2

读取外部文件肯定会减慢您的速度。我假设你只读过一次,但它仍然会减慢你的速度。

1)您是否尝试过缓存文件的内容,以便您不需要再次阅读它?如果映射没有太大变化,这可能是一种改进。

2) 另外,为什么不尝试将映射存储在 Dictionary 对象(或类似结构)中?如果你愿意,你可以把它放在一个单独的类文件中。这是一个硬编码的解决方案,不确定它在您的系统中的表现如何。

于 2013-09-24T15:11:13.183 回答
1

循环展开是一种通过将循环转换为语句序列来提高性能的技术。一个简单的例子

for(int i = 0; i < 3; i++)
{
    Console.WriteLine(i);
}

可以展开到

Console.WriteLine(0);
Console.WriteLine(1);
Console.WriteLine(2);

有各种复杂的技术可以做到这一点,但重点是减少循环变量的增量、条件评估和机器代码中的跳转指令。请注意,这种技术并不总是一种简单的性能提升。有关更多讨论和示例,请参阅循环展开

你走了另一条路。你花了很长的时间if-else把它变成了

string Provider = providerMap.First(p => txtvar.BillText.IndexOf(p.Pattern) > -1).Name;

现在First所做的就是有效地执行此操作(请注意,First在没有项目匹配的情况下会抛出):

Provider found = null;
foreach(var provider in providerMap)
{
    if (txtvar.BillText.IndexOf(provider.Pattern) > -1)
    {
        found = provider;
        break;
    }
}

所以你可以看到你走了相反的路:从语句序列到循环。

我认为您已经获得了一些您没有提到的东西,即无需重新编译代码即可添加提供程序的能力,这很方便。

于 2013-09-24T17:51:59.903 回答
0

我会选择第三种选择,

1-它更具可读性

2-少代码,也可以是性能+1。

3-更易于维护

4- dll 内没有字符串,这也减少了 dll 的大小

于 2013-09-24T15:46:57.617 回答