使用ranklib的学习对随机森林进行排名会生成一个类似 xml 的模型。Ranklib 有一个提供特征频率的工具,不一定将其视为特征重要性。
如何获取ranklib 生成的随机森林的Gini 特征重要性或 Gini 指数?如何解析生成的树?
在 Sourceforge 讨论论坛中发现您需要自己解析模型文件。
使用ranklib的学习对随机森林进行排名会生成一个类似 xml 的模型。Ranklib 有一个提供特征频率的工具,不一定将其视为特征重要性。
如何获取ranklib 生成的随机森林的Gini 特征重要性或 Gini 指数?如何解析生成的树?
在 Sourceforge 讨论论坛中发现您需要自己解析模型文件。
我个人在从 ranklib 随机森林中获得特征的 Gini 重要性方面进行了很多努力,最终成功了。这里分享一下我为解决问题而制作的Github仓库。
你可以通过运行这个命令来做到这一点(使用 python3):
python Gini.py <num_features> <path_to\training_data> <path_to\RF_model> <trees directory> <output_file>
有关如何执行此操作的更多详细信息,请参阅存储库。