0

如果我的 pandas 数据框包含 3 列Col1& Col2&Col3并且我需要在 和 之间获得最大 Pearson 的相关系数Col2Col3通过考虑下一个公式获得Col1的修改值 For 的值:Col2

df['Col1']=np.power((df['Col1']),B)
df['Col2']=df['Col2']*df['Col1']

其中 B 是变化的变量,以获得最大 Pearson 的相关系数Col3和 的新值Col2

那么是否有一种 Python 方法可以做到这一点并返回 B。有没有办法使用 Python 执行此操作并返回 B 值,我想将这个过程重复到其他列。

4

1 回答 1

2

这应该工作

import pandas as pd
import numpy as np
from scipy.optimize import minimize

# dataframe with 20 rows
df = pd.DataFrame(data=np.random.randn(20,3), 
                  columns=['Col1', 'Col2', 'Col3'])

# cost function
def cost_fun(B_array, df):
    B = B_array[0]
    new_col1 = np.power((df['Col1']), B)
    new_col2 = np.array(df['Col2']) * new_col1
    col3 = np.array(df['Col3'])
    pearson = np.corrcoef(new_col2, col3)[1,0]
    return -1*pearson # multiply by -1 to get max

# initial value
B_0 = 1.1

# run minimizer
res = minimize(cost_fun, [B_0], args=(df), 
               options={"maxiter": 100,
                        "disp": True})
# results
print(res)
于 2019-04-26T14:07:18.203 回答