问题标签 [hdbscan]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 rapids 测试 hdbscan 而不会出错
早上好,我想使用 GPU 测试 hdbscan(基于层次密度的应用程序空间聚类 w/噪声),所以我应该使用框架 rapids。当我尝试按照此处描述的步骤https://colab.research.google.com/drive/1rY7Ln6rEE1pOlfSHCYOVaqt8OvDO35J0#forceEdit=true&sandboxMode=true&scrollTo=EwaJSKuswsNi 取自 Rapids 网站:https ://rapids.ai/start.html 我得到当我运行函数 CUDF 的代码时出现以下错误:
请你帮助我好吗。
谢谢提前
python - 在 Top2vec 中规范化主题向量
我试图了解Top2Vec 的工作原理。我对在论文中找不到答案的代码有一些疑问。该算法所做的总结是:
- 将单词和向量嵌入到相同的语义空间中并对其进行规范化。这通常有 300 多个维度。
- 使用 UMAP 和余弦相似度将它们投影到 5 维空间中。
- 使用 HDBSCAN 和投影数据上的欧几里德度量将主题创建为集群的质心。
让我烦恼的是他们规范化了主题向量。然而,UMAP 的输出没有被规范化,并且规范化主题向量可能会将它们移出它们的集群。这与他们在论文中描述的不一致,因为主题向量是属于同一主题的所有文档向量的算术平均值。
这导致两个问题:
考虑到他们通过标准化改变了主题向量,他们将如何计算最接近的词以找到每个主题的关键字?
在将主题创建为集群后,他们尝试对非常相似的主题进行重复数据删除。为此,他们使用余弦相似度。这对于归一化主题向量是有意义的。同时,它是规范化主题向量引入的不一致性的扩展。我在这里错过了什么吗?
scikit-learn - Scikit HDBSCAN *tree* 标签(不是单片标签)
BLUF:对于特定的 epsilon(或 HDBSCAN 的“最喜欢的” epsilon),我可以提取我的数据在该 epsilon 分区中的映射。但是我怎样才能看到我的数据的完整树成员?
我从这里的精彩教程中收获颇丰。在 scikit learn 的 HDBSCAN 中,我可以使用clusterer.labels
查看最佳 epsilon 的分区标签。我可以clusterer.single_linkage_tree_.get_clusters(0.023, min_cluster_size=2)
用来查看任意 epsilon 的分区标签。我什至可以使用clusterer.condensed_tree_.plot()
. 但是如何查看各个数据点的树状图标签?
例如:很高兴我的宠物的名字是 {Spot, Felix, Nemo, Fido, Tigger}。或者物种是{Dog, Cat, Guppy, Dog, Cat}。但我想要一个告诉我的输出:
点 | 狗 | 哺乳动物 | 动物 |
菲利克斯 | 猫 | 哺乳动物 | 动物 |
尼莫 | 孔雀鱼 | 鱼 | 动物 |
菲多 | 狗 | 哺乳动物 | 动物 |
跳跳虎 | 猫 | 哺乳动物 | 动物 |
通过这种输出,我可以准确地看到Spot和 Felix 的相关性,而不是“他们有相同的物种吗?是/否?” “他们有同一个王国吗?是/否?”
scikit-learn - 从 Scikit-learn 示例运行 HDBSCAN 时出错
尝试在我自己的数据集(约一百万个样本)中运行以下示例以及来自 Scikit-learn 的示例时,出现以下错误:
修改后的代码如下:
该self.exemplars()
功能与示例中实现的功能完全相同。显然,一旦集群数量约为 8k,我需要更多颜色。我怎么能管理它?