0

我正在使用包“arules”来挖掘我的大数据中的频繁项集,但我找不到合适的离散化方法。

作为包'arules'中的示例,可以在函数'离散化'中使用几种基本的无监督方法,但我想估计我的大型数据集中的最佳类别数,这似乎比分配类别数更合理。

能否给我一些好的建议,谢谢。

@迈克尔·哈斯勒

4

1 回答 1

0

我认为关于无监督离散化的指导很少。查看每个变量的直方图并手动决定。对于 k-means,您可能会使用内部验证技术(即肘部方法)来使用策略来找到 k。对于有监督的离散化,有一些方法可以帮助您做出决定。也许其他人可以在这里提供帮助。

于 2018-01-31T16:44:36.033 回答