2

如何增加默认值max_components变量中的默认值?

默认max_components设置为 30000。我需要增加此限制,因为每次执行重复数据删除(使用相同的数据集)时都会得到不同的结果。

我认为我的数据中的集群总数大于 30000。

4

1 回答 1

1

来自 Github 的回答

重复数据删除 github 中的问题 增加 max_components = 30000

如果您使用相同的保存设置文件得到不同的结果,那么您报告的是一个错误。如果您从不同的训练数据(甚至相同的训练数据)中获得不同的结果,这是可以预期的,因为重复数据删除在各个点使用随机样本来学习好的规则。

无论哪种情况,我都怀疑 max_components 是否相关。但是,如果您想更改它,请分叉代码并更改它。

于 2017-08-08T10:48:15.497 回答