python - 从 pandas 返回多个值适用于 DataFrame

Question

根据此示例，我正在使用 PandasDataFrame进行逐行 t 检验：

import numpy
import pandas

df = pandas.DataFrame(numpy.log2(numpy.randn(1000, 4), 
                      columns=["a", "b", "c", "d"])

df = df.dropna()

现在，假设我有“a”和“b”作为一组，而“c”和“d”在另一组，我正在逐行执行 t 检验。这对于熊猫来说是相当微不足道的，使用applyaxis = 1。但是，如果我的函数没有聚合，我可以返回一个相同形状的 DataFrame，如果它聚合，我可以返回一个 Series。

通常我只会输出 p 值（因此，聚合），但我想根据其他计算生成一个附加值（换句话说，返回两个值）。我当然可以进行两次运行，首先聚合 p 值，然后再进行其他工作，但我想知道是否有更有效的方法来执行此操作，因为数据相当大。

作为计算的一个例子，假设函数是：

from scipy.stats import ttest_ind

def t_test_and_mean(series, first, second):
    first_group = series[first]
    second_group = series[second]
    _, pvalue = ttest_ind(first_group, second_group)

    mean_ratio = second_group.mean() / first_group.mean()

    return (pvalue, mean_ratio)

然后调用

df.apply(t_test_and_mean, first=["a", "b"], second=["c", "d"], axis=1)

当然，在这种情况下，它返回一个带有两个元组作为值的系列。

相反，ny 的预期输出将是一个包含两列的 DataFrame，一列用于第一个结果，另一列用于第二个结果。这是可能的还是我必须为这两个计算做两次运行，然后将它们合并在一起？

score 95 · Accepted Answer

返回一个系列，而不是元组，应该生成一个新的多列 DataFrame。例如，

return pandas.Series({'pvalue': pvalue, 'mean_ratio': mean_ratio})

python - 从 pandas 返回多个值适用于 DataFrame

1 回答 1

Related

Reference