0

我正在开展一个项目,使用机器学习方法和包含大约 900 个变量的数据集来预测事件(移植失败)的日期,我是这个领域的新手,我不确定我是否走在正确的轨道上。

起初,我使用神经网络在 python 中使用 Keras 库进行预测,然后我发现我的数据中有 70% 的审查实例(Y 变量)。但是,除了 Y 之外,我还有一个后续变量。所以,我得出结论,我不应该使用神经网络来解决这类问题,而且我必须事先处理审查数据。现在我有三个问题:

1)有这样的审查数据率是否正常?我们应该如何处理这种情况?

2) 我的结论是否正确,即神经网络不是解决我的问题的最佳方案?如果不是,最常见的机器学习方法是什么?我为此目的找到了生命线和 scikit-survival 包,但我不知道哪个更好,它是正确的解决方案。

3)我用后续变量替换了审查数据,而根据我的数据集中审查数据的高比例,我认为它不合适。我意识到我应该使用另一种方法,如校准,但我找不到执行此操作的 python 库。你能帮我解决这个问题吗?Pyhton 中通常用于校准什么?

4

1 回答 1

0

我认为处理审查数据的一种方法是使用预测 cox 比例风险/kaplan meier 的模型。看起来这里有一个框架 researchgate.net/publication/…。它有一个关联的 GitHub github.com/jaredleekatzman/DeepSurv。不幸的是,在 Theano 而不是 Keras

我收回我说的话。我找到了一个 keras 版本(虽然我认为它仍然是 theano 的后端;改变起来并不难)!

https://github.com/mexchy1000/DeepSurv_Keras/blob/master/Survival_Keras_lifelineExample.py

于 2018-07-30T15:49:06.703 回答