1

集群时,我收到以下警告

UserWarning: A component contained 77760 elements. 
Components larger than 30000 are re-filtered. 
The threshold for this filtering is 4.08109134074e-15

这是什么意思?

我的原始阈值规范为 0.191,如下所示

clustered_dupes = deduper.match(data,threshold=0.191)
4

1 回答 1

0

阈值是集群的共同相似性而不是成对相似性。

于 2020-03-09T19:10:51.320 回答