16

以下代码使用两种不同的方法总结了数值数据。

一种方法使用 Dataframe().describe() 并传递一些特定的额外百分位数。

第二种方法分别计算汇总统计信息(均值、标准差、N),将其堆叠,计算相同的分位数,然后将两者附加并按索引排序,因此结果与第一种方法基本相同。

有一些小的命名差异,我们可以清理后记,因为汇总的数据很小,所以速度非常快。

事实证明,在这个例子中使用 describe 函数大约慢了 8 倍。

我正在寻找原因以及可能会加快速度的任何其他方法的建议(过滤器、组、值)都从 UI 传递到龙卷风服务 - 所以速度很重要,因为用户正在等待结果,并且数据可以比这个例子更大。

    import pandas as pd
    import numpy as np
    from datetime import datetime

    def make_data (n):
        
        ts = datetime.now().timestamp() + abs(np.random.normal(60, 30, n)).cumsum()
        
        df = pd.DataFrame({
            'c1': np.random.choice(list('ABCDEFGH'), n),
            'c2': np.random.choice(list('ABCDEFGH'), n),
            'c3': np.random.choice(list('ABCDEFGH'), n),
            't1': np.random.randint(1, 20, n),
            't2': pd.to_datetime(ts, unit='s'),
            'x1': np.random.randn(n),
            'x2': np.random.randn(n),
            'x3': np.random.randn(n)
            })
        
        return df
    
    def summarize_numeric_1 (df, mask, groups, values, quantiles): 
        
        dfg = df[mask].groupby(groups)[values]
        
        return dfg.describe(percentiles = quantiles).stack()
    
    def summarize_numeric_2 (df, filt, groups, values, quantiles): 
           
        dfg = df[mask].groupby(groups)[values]
    
        dfg_stats = dfg.agg([np.mean, np.std, len]).stack()
        dfg_quantiles = dfg.quantile(all_quantiles)
        
        return dfg_stats.append(dfg_quantiles).sort_index()

    %time df = make_data(1000000)
    
    groups = ['c1', 'c2', 't1']
    mask = df['c3'].eq('H') & df['c1'].eq('A')
    values = ['x1', 'x3']
    base_quantiles = [0, .5, 1] 
    extd_quantiles = [0.25, 0.75, 0.9]
    all_quantiles = base_quantiles + extd_quantiles
    
    %timeit summarize_numeric_1(df, mask, groups, values, extd_quantiles)
    %timeit summarize_numeric_2(df, mask, groups, values, all_quantiles)

我的电脑上的时间是:

使用描述:每个循环 873 毫秒 ± 8.9 毫秒(平均值 ± 标准偏差。7 次运行,每个循环 1 个)

使用两步法:每个循环 105 ms ± 490 µs(平均值 ± 标准偏差。7 次运行,每次 10 个循环)

欢迎所有输入!

4

2 回答 2

1

有根据的猜测

我将把它作为答案发布,可能会在以后被删除,因为它更像是一个有根据的猜测而不是一个实际的答案。评论也有点太长了。

因此,在阅读您的答案后,我做的第一件事就是在分析器中重新运行您的时间,以仔细研究这个问题。由于计算本身的时间相当短,因此它被数据生成所掩盖。但是总的来说,时间与您描述的相似。不仅如此,差异变得更加明显:第一种方法为
1094毫秒,第二种方法为 63 毫秒。这产生了 17 倍的差异。

由于较低的时间相当小,我认为它太小而无法信任,并使用 *10 生成的数据样本大小重新运行测试。它将数据生成步骤提高到一分钟,数字变得很奇怪: 第一种方法为1173毫秒,第二种方法为 506 毫秒。因子只比两个稍差。

我开始怀疑一些事情。为了证实我的怀疑,我再次运行了最后一个测试,将数据大小增加了 10 倍。结果可能会让您感到惊讶:第一种方法为
12258毫秒,第二种方法为3646 毫秒。表格已经完全翻转,系数约为 0.3。

在这种情况下,我的猜测是 pandas 计算实际上是具有更好优化/算法的计算。然而,由于它是 pandas,它周围有很多额外的包袱——这是为方便和稳健而付出的代价。这意味着有一层“不必要的”(计算方面的)包袱,无论数据集有多大,都需要随身携带。

因此,如果您想在自己大小的数据集上比 pandas 更快,请自己进行操作并自己编写它们 - 尽可能以最直接的方式。这将保持他们的优化并丢弃为方便而支付的行李。

于 2020-11-23T14:11:43.010 回答
1

注意:此答案适用于 pandas 版本 1.0.5 。其他版本的情况可能有所不同。

tl;博士

pandasdescribe()方法总是比你的版本慢,因为在底层它使用几乎完全相同的逻辑,加上其他一些事情,比如确保数据具有正确的维度、对结果进行排序以及检查 NaN 和正确的数据类型。


更长的答案

看一下方法的源代码describe,我们可以看到一些东西:

  • pandas 使用与您的代码相同的逻辑来计算统计信息。有关如何使用相同逻辑的示例,请参见方法中的这一行。describe()这意味着熊猫describe总是变慢。
  • pandas 使用 计算非 NaN 值s.count(),但您的代码计算所有值。让我们尝试修改您的代码以使用相同的方法而不是len()
def summarize_numeric_3(df, filt, groups, values, quantiles): 
    dfg = df[mask].groupby(groups)[values]
    dfg_stats = dfg.agg([np.mean, np.std, pd.Series.count]).stack()
    dfg_quantiles = dfg.quantile(all_quantiles)
    return dfg_stats.append(dfg_quantiles).sort_index()

%timeit -n 10 summarize_numeric_3(df, mask, groups, values, all_quantiles)

# outputs
# 48.9 ms ± 1.11 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

大约需要 49 毫秒,而我机器上的版本需要 42 毫秒。仅仅为了这个相对较小的修改就多花了 7 毫秒!

  • pandas 在确保数据具有正确的类型和形状并以漂亮的格式呈现数据方面所做的远不止您的代码。我已将 pandasdescribe方法代码提取到“自包含”* 版本中,您可以在此处对其进行分析和修改(太长,无法在此答案中发布)。对此进行分析,我发现很大一部分时间都花在了“为行设置方便的顺序”上。删除该排序将describe时间提高了约 8%,从 530 毫秒降至 489 毫秒。
于 2020-11-29T17:53:36.603 回答