我想确定热力学过程中意外结果(或异常)的原因。我有相关变量的连续数据,并试图利用“贝叶斯网络(BN)”来确定因果关系。为此,我在 Python 中使用了一个名为“ Causalnex ”的库。
我已经按照这个库的教程部分构建了 DAG、BN 模型,并且在预测步骤之前一切正常。少数/少数类的预测结果具有大约 60-70% 的准确度(在 SMOTE/SMOTETomek 和特定随机状态下为 80-90%),而稳定的准确度有望超过 90%。我已经实现了以下数据预处理步骤。
- 确保没有缺失/NaN 值
- 离散化(仅库支持)
- SMOTE/SMOTEtomek 用于数据平衡
- 各种训练/测试尺寸组合
我正在努力找出优化模型的方法。我在互联网上找不到任何支持材料。
是否有任何适用于该库/BN 模型的数据预处理技术和数据集要求的指南或“最佳实践”?您能否建议任何故障排除方法来确定低准确性/指标的原因?也许 DAG 中被误解的节点-节点因果关系会导致平庸的准确性?
任何与此相关的想法/文献/其他合适的图书馆都会有很大帮助!