machine-learning - 如何处理审查实例？

Question

我正在开展一个项目，使用机器学习方法和包含大约 900 个变量的数据集来预测事件（移植失败）的日期，我是这个领域的新手，我不确定我是否走在正确的轨道上。

起初，我使用神经网络在 python 中使用 Keras 库进行预测，然后我发现我的数据中有 70% 的审查实例（Y 变量）。但是，除了 Y 之外，我还有一个后续变量。所以，我得出结论，我不应该使用神经网络来解决这类问题，而且我必须事先处理审查数据。现在我有三个问题：

1）有这样的审查数据率是否正常？我们应该如何处理这种情况？

2) 我的结论是否正确，即神经网络不是解决我的问题的最佳方案？如果不是，最常见的机器学习方法是什么？我为此目的找到了生命线和 scikit-survival 包，但我不知道哪个更好，它是正确的解决方案。

3）我用后续变量替换了审查数据，而根据我的数据集中审查数据的高比例，我认为它不合适。我意识到我应该使用另一种方法，如校准，但我找不到执行此操作的 python 库。你能帮我解决这个问题吗？Pyhton 中通常用于校准什么？

score 0 · Accepted Answer

我认为处理审查数据的一种方法是使用预测 cox 比例风险/kaplan meier 的模型。看起来这里有一个框架 researchgate.net/publication/…。它有一个关联的 GitHub github.com/jaredleekatzman/DeepSurv。不幸的是，在 Theano 而不是 Keras

我收回我说的话。我找到了一个 keras 版本（虽然我认为它仍然是 theano 的后端；改变起来并不难）！

https://github.com/mexchy1000/DeepSurv_Keras/blob/master/Survival_Keras_lifelineExample.py

machine-learning - 如何处理审查实例？

1 回答 1

Related

Reference