根据此示例,我正在使用 PandasDataFrame
进行逐行 t 检验:
import numpy
import pandas
df = pandas.DataFrame(numpy.log2(numpy.randn(1000, 4),
columns=["a", "b", "c", "d"])
df = df.dropna()
现在,假设我有“a”和“b”作为一组,而“c”和“d”在另一组,我正在逐行执行 t 检验。这对于熊猫来说是相当微不足道的,使用apply
axis = 1。但是,如果我的函数没有聚合,我可以返回一个相同形状的 DataFrame,如果它聚合,我可以返回一个 Series。
通常我只会输出 p 值(因此,聚合),但我想根据其他计算生成一个附加值(换句话说,返回两个值)。我当然可以进行两次运行,首先聚合 p 值,然后再进行其他工作,但我想知道是否有更有效的方法来执行此操作,因为数据相当大。
作为计算的一个例子,假设函数是:
from scipy.stats import ttest_ind
def t_test_and_mean(series, first, second):
first_group = series[first]
second_group = series[second]
_, pvalue = ttest_ind(first_group, second_group)
mean_ratio = second_group.mean() / first_group.mean()
return (pvalue, mean_ratio)
然后调用
df.apply(t_test_and_mean, first=["a", "b"], second=["c", "d"], axis=1)
当然,在这种情况下,它返回一个带有两个元组作为值的系列。
相反,ny 的预期输出将是一个包含两列的 DataFrame,一列用于第一个结果,另一列用于第二个结果。这是可能的还是我必须为这两个计算做两次运行,然后将它们合并在一起?