我正在尝试使用 RWeka 的Discretize
过滤器离散化一组数据。我的数据集开始时有超过一百万条记录,但返回的集只有大约 10 万条。该函数看起来应该返回集合中每条记录的 bin,所以我很好奇 90% 的数据去了哪里?
数据中有 NA,所以我尝试得到以下结果:
> disc_data = Discretize(class~.,data=num_data, na.action=na.pass)
Error in .jarray(x) : java.lang.OutOfMemoryError: Java heap space
我正在使用其他人的代码,以前似乎没有问题。我不确定这是否是对离散化或 R 缺乏理解。有人可以解释一下Discretize
假设是如何工作的以及发生了什么吗?