我喜欢 ml 的 h2o.ai 工具。它是java,但它很熟悉并且做得不错。
以下是有关一般分层拆分的信息:
我有一个非常不平衡的变量,所以我需要在 h2o.ai 中基于 R-gui 对该变量的数据进行分层拆分。有没有办法做到这一点?
在 h2o.ai 工具中用于拆分数据的 R 命令是这样的:
splits = h2o.splitFrame(mydata, ratios=myratio, destination_frames=...)
splitframe 变量中没有分层选项。我在 Flow(运行 java 的 Web 界面)工具中知道它们允许在交叉验证方法中平衡类,因此它在某处进行分层拆分。
我讨厌在基础 R 中执行此操作,因为 R 中的内存处理不如 h2o.ai 有效,而且我的数据量很大。