问题标签 [hdbscan]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

64 问题

0 投票

1 回答

27 浏览

python - 如何使用 rapids 测试 hdbscan 而不会出错

早上好，我想使用 GPU 测试 hdbscan（基于层次密度的应用程序空间聚类 w/噪声），所以我应该使用框架 rapids。当我尝试按照此处描述的步骤https://colab.research.google.com/drive/1rY7Ln6rEE1pOlfSHCYOVaqt8OvDO35J0#forceEdit=true&sandboxMode=true&scrollTo=EwaJSKuswsNi 取自 Rapids 网站：https ://rapids.ai/start.html 我得到当我运行函数 CUDF 的代码时出现以下错误：

请你帮助我好吗。

谢谢提前

2022-02-04T18:52:29.133

0 投票

1 回答

32 浏览

python - 在 Top2vec 中规范化主题向量

我试图了解Top2Vec 的工作原理。我对在论文中找不到答案的代码有一些疑问。该算法所做的总结是：

将单词和向量嵌入到相同的语义空间中并对其进行规范化。这通常有 300 多个维度。
使用 UMAP 和余弦相似度将它们投影到 5 维空间中。
使用 HDBSCAN 和投影数据上的欧几里德度量将主题创建为集群的质心。

让我烦恼的是他们规范化了主题向量。然而，UMAP 的输出没有被规范化，并且规范化主题向量可能会将它们移出它们的集群。这与他们在论文中描述的不一致，因为主题向量是属于同一主题的所有文档向量的算术平均值。

这导致两个问题：

考虑到他们通过标准化改变了主题向量，他们将如何计算最接近的词以找到每个主题的关键字？

在将主题创建为集群后，他们尝试对非常相似的主题进行重复数据删除。为此，他们使用余弦相似度。这对于归一化主题向量是有意义的。同时，它是规范化主题向量引入的不一致性的扩展。我在这里错过了什么吗？

python nlp topic-modeling doc2vec hdbscan

2022-02-16T13:59:58.967

0 投票

1 回答

32 浏览

scikit-learn - Scikit HDBSCAN tree 标签（不是单片标签）

BLUF：对于特定的 epsilon（或 HDBSCAN 的“最喜欢的” epsilon），我可以提取我的数据在该 epsilon 分区中的映射。但是我怎样才能看到我的数据的完整树成员？

我从这里的精彩教程中收获颇丰。在 scikit learn 的 HDBSCAN 中，我可以使用clusterer.labels查看最佳 epsilon 的分区标签。我可以clusterer.single_linkage_tree_.get_clusters(0.023, min_cluster_size=2)用来查看任意 epsilon 的分区标签。我什至可以使用clusterer.condensed_tree_.plot(). 但是如何查看各个数据点的树状图标签？

例如：很高兴我的宠物的名字是 {Spot, Felix, Nemo, Fido, Tigger}。或者物种是{Dog, Cat, Guppy, Dog, Cat}。但我想要一个告诉我的输出：


点	狗	哺乳动物	动物
菲利克斯	猫	哺乳动物	动物
尼莫	孔雀鱼	鱼	动物
菲多	狗	哺乳动物	动物
跳跳虎	猫	哺乳动物	动物

通过这种输出，我可以准确地看到Spot和 Felix 的相关性，而不是“他们有相同的物种吗？是/否？” “他们有同一个王国吗？是/否？”

scikit-learn data-science cluster-analysis hierarchical-clustering hdbscan

2022-02-21T20:02:16.060

0 投票

0 回答

12 浏览

scikit-learn - 从 Scikit-learn 示例运行 HDBSCAN 时出错

尝试在我自己的数据集（约一百万个样本）中运行以下示例以及来自 Scikit-learn 的示例时，出现以下错误：

修改后的代码如下：

该self.exemplars()功能与示例中实现的功能完全相同。显然，一旦集群数量约为 8k，我需要更多颜色。我怎么能管理它？

scikit-learn hdbscan

2022-02-24T14:13:53.080

1 2 3 4 5 6 7 8 9 10

问题标签 [hdbscan]

python - 如何使用 rapids 测试 hdbscan 而不会出错

python - 在 Top2vec 中规范化主题向量

scikit-learn - Scikit HDBSCAN *tree* 标签（不是单片标签）

scikit-learn - 从 Scikit-learn 示例运行 HDBSCAN 时出错

Reference

scikit-learn - Scikit HDBSCAN tree 标签（不是单片标签）