我正在开展一个项目,使用机器学习方法和包含大约 900 个变量的数据集来预测事件(移植失败)的日期,我是这个领域的新手,我不确定我是否走在正确的轨道上。
起初,我使用神经网络在 python 中使用 Keras 库进行预测,然后我发现我的数据中有 70% 的审查实例(Y 变量)。但是,除了 Y 之外,我还有一个后续变量。所以,我得出结论,我不应该使用神经网络来解决这类问题,而且我必须事先处理审查数据。现在我有三个问题:
1)有这样的审查数据率是否正常?我们应该如何处理这种情况?
2) 我的结论是否正确,即神经网络不是解决我的问题的最佳方案?如果不是,最常见的机器学习方法是什么?我为此目的找到了生命线和 scikit-survival 包,但我不知道哪个更好,它是正确的解决方案。
3)我用后续变量替换了审查数据,而根据我的数据集中审查数据的高比例,我认为它不合适。我意识到我应该使用另一种方法,如校准,但我找不到执行此操作的 python 库。你能帮我解决这个问题吗?Pyhton 中通常用于校准什么?