我正在尝试在 python 中对大型数据集(约 80 行 x 12,000 列)进行生存分析。
目前我正在使用:
from lifelines import CoxPHFitter
cf = CoxPHFitter()
cf.fit(df, duration_col='Time', event_col='Status')
但它非常慢。将数据帧分成 100 个块并多次运行 cf.fit 会稍微快一些,但它的时钟仍然在 80 秒左右。这明显比 R 的 coxph 慢,而且我真的不想使用 rpy2 在 R 中运行分析。
我对如何加快速度有点不知所措,所以任何建议都将不胜感激。