背景故事*我最近从使用 excel 转换为生成预测被诊断患有特定癌症的机会的模型。该模型是在一个 excel 文件中生成的,并且在大小和复杂性方面都在增长,我利用 excels 求解器平台来迭代模拟,文件大小达到 500mb+,基本上我开始跨入“大数据”领域.*
我对堆栈溢出社区的问题是,继续这项研究的最佳方法是什么。我的直觉是,将数据存储在数据库中并调用每个参数进行单独分析是可能的。我的旧 excel 方法使用每个参数的非线性回归(来自历史数据)启用计算获得所述癌症的百分比机会(特定于该单个参数),然后使用的算法对每个参数进行加权以获得最终分数,我从中将执行逻辑回归以计算一个人患上所述癌症的机会。
任何建议、评论、指示和建设性的批评将不胜感激,我最近从 excel 切换到 python 以继续这项工作,亲切的问候 AEA