Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
用于聚类文本文档的文档的其他特征表示是什么?我知道的唯一表示是 tf-idf。还有其他的吗?
不是真正的加权(或它的极端版本),但我注意到修剪频繁的特征使得使用 k-means 的文档聚类更加稳定:例如,您可以尝试修剪 50% 文档的所有非零特征或者更多。