如何增加默认值max_components
变量中的默认值?
默认max_components
设置为 30000。我需要增加此限制,因为每次执行重复数据删除(使用相同的数据集)时都会得到不同的结果。
我认为我的数据中的集群总数大于 30000。
如何增加默认值max_components
变量中的默认值?
默认max_components
设置为 30000。我需要增加此限制,因为每次执行重复数据删除(使用相同的数据集)时都会得到不同的结果。
我认为我的数据中的集群总数大于 30000。
来自 Github 的回答
重复数据删除 github 中的问题 增加 max_components = 30000
如果您使用相同的保存设置文件得到不同的结果,那么您报告的是一个错误。如果您从不同的训练数据(甚至相同的训练数据)中获得不同的结果,这是可以预期的,因为重复数据删除在各个点使用随机样本来学习好的规则。
无论哪种情况,我都怀疑 max_components 是否相关。但是,如果您想更改它,请分叉代码并更改它。