问题标签 [hdbscan]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
149 浏览

r - HBSCAN membership probability

I'm working on a comparison between clustring algorithms and I want to know how HDBSCAN in R calculate the so called the membership 'probability' ?

0 投票
0 回答
14 浏览

machine-learning - 如何使用具有 dkb 值的集群算法?

我有一个带有几何字段的数据框。我想hdbscan在几何字段上运行集群算法(在这种情况下)。

我正在尝试执行以下步骤:

  1. 加载df
  2. 创建类似的函数,将字符串转换为wkb并返回 2 点之间的距离。

继承人的代码:

但我收到错误(fit在线):

如何hdbscan在 wkb 值上运行(或任何其他集群算法)?

0 投票
1 回答
60 浏览

scikit-learn - 我们可以改装或适应零件聚类算法吗?

  • 我想对大数据集(超过 1M 条记录)进行聚类。
  • 我想为这个聚类任务使用dbscanorhdbscan算法。

当我尝试使用其中一种算法时,我遇到了内存错误。

  • 有没有办法将大数据集分成几部分?(使用 for 循环并每 1000 条记录重新调整一次)?
  • 如果没有,是否有更好的方法来集群大数据集,而不升级机器内存?
0 投票
0 回答
47 浏览

python - 如何在文本数据上使用 HDBSCAN?

我有一组电子邮件,其中包含提取的关键字数组和金属标签。我想在 python 中使用 HDBSACN 进行主题聚类,但我找不到任何示例,它是在 hdbscan 中使用的数据的正确格式。

我应该如何形成我的 Mail 类的列表来放置fit()方法?

0 投票
0 回答
30 浏览

cluster-analysis - 测量分布中的“单个最强峰”

我想自动检测数据是否具有非常明显的峰值,具有任何特定的分布。否则数据可能会非常嘈杂,或者可能有几个“假”峰。以下是我期望的一些性能示例,越高越好:

  • 多式联运:测量分数低

  • 平:测量分数低

  • 锯齿状,没有真正的高点:测量分数低

  • 一个明确定义的峰,无论尾部厚度或其他考虑因素如何:测量得分高

密度峰值聚类能否成为一种解决方案,尤其是 HDBSCAN?或者,如果专门用于查找单个值的峰值,是否有另一种计算速度更快的聚类算法?

我还认为这可能更像是一个模式识别问题,可能会使神经网络变得有用。

0 投票
0 回答
188 浏览

python - 与 bertopic 一起使用的 hdbscan 出现问题:OSError: [Errno 22] Invalid argument

我写作是因为我有一个问题(我知道这是愚蠢而明显的介绍)。

我正在尝试使用 RStudio 中的 Python 解释器和reticulate扩展来使用 BERTopic 包:

Python 3.6.13 (C:/Users/Francesco/AppData/Local/r-miniconda/envs/r-reticulate/python.exe)
Reticulate 1.18.9008 REPL——R 中的 Python 解释器。

我设法安装它 pip3 install bertopic

起初,尝试安装会bertopic导致与hdbscan依赖关系有关的错误,特别是与所使用的轮子有关的错误;我通过 conda 安装 hdbscan 克服了它(使用 pip 问题似乎无法解决),并且在这样做之后似乎两者都已安装并且很好(pip 会确认)。

之后,我尝试按照Medium/Towards Data Science 中的包教程(这里是我正在关注的Colab版本)来熟悉这个包并检查一切是否按预期工作。

我基本上是在我正在使用的 RMarkdown 文件中的 Python 块上复制和粘贴 Colab 的代码,但是当我尝试将教程的相同代码应用于所使用的相同数据集时:

我收到以下错误:

批次:100%|##########| 589/589 [28:21<00:00, 2.89s/it]
2021-04-29 16:24:25,973 - BERTopic - 将文档转换为嵌入
2021-04-29 16:24:35,752 - BERTopic - 使用降维UMAP
OSError:[Errno 22] 无效参数

理论上,按照 colab 的输出,我应该得到:

..................... - BERTopic - 使用 HDBSCAN 的集群 UMAP 嵌入

因为我有问题,hdbscan我相信它与它有某种关系,我阅读了几个 GitHub 和 Stackoverflow 页面,指出了这样一个包的问题,​​但我不知道如何解决这个问题,但我真的需要,因为我需要为我的论文使用包。

有人能帮助我吗?

PS:这是我第一次在 stackoverflow 上提问:我希望我写下了所有必要的信息,但如果缺少某些信息,请告诉我。

0 投票
0 回答
54 浏览

python - 用 HDBSCAN 聚类相似的行

在此处输入图像描述 上图是视频中的一帧。最终目标是检测门。我想要做的是类似于圆圈的聚类线,其中未圈出的线是异常值。我的发现告诉我这是一个 HDBSCAN 问题,所以我尝试像这样实现 HDBSCAN:

我尝试了 2 种方法,一种是按原样传递行列表,这给出了非常糟糕的结果,我假设这是因为 HDBSCAN 不知道坐标代表一条线。第二种是传入每行中点的列表,效果更好但仍然不是很好。有没有办法可以改进这一点并获得与预期结果更相似的东西?

原始图像 在此处输入图像描述

0 投票
2 回答
2527 浏览

python - 如何解决“hdbscan 构建轮子失败”?

我尝试使用下载 Hdbscan pip install hdbscan,我得到了这个:

错误:hdbscan 的构建轮失败

错误:无法为使用 PEP 517 且无法直接安装的 hdbscan 构建轮子

我尝试了几种解决方案,但都没有奏效。

0 投票
1 回答
607 浏览

machine-learning - HDBSCAN参数之间的差异

我对 HDBSCAN 中以下参数之间的区别感到困惑

  1. min_cluster_size
  2. min_samples
  3. cluster_selection_epsilon

如我错了请纠正我。

对于min_samples,如果设置为 7,则形成的簇需要有 7 个或更多点。因为cluster_selection_epsilon如果设置为 0.5 米,则任何相距超过 0.5 米的簇都不会合并为一个。这意味着每个集群将仅包含相距 0.5 米或更小的点。

那和 有什么不同min_cluster_size

0 投票
0 回答
67 浏览

python - 如何在 python 中使用 HDBSCAN 来检测图中的异常值?

我使用 NETWORKX 创建了一个加权图,我想检测该图的异常值。在他们的文档中,他们展示了如何做,问题是clusterer.labels_不按顺序显示集群列表,因此我可以检测哪个节点是异常值来删除它。我怎样才能做到这一点?