“hdbscan”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

149 浏览

r - HBSCAN membership probability

I'm working on a comparison between clustring algorithms and I want to know how HDBSCAN in R calculate the so called the membership 'probability' ?

2021-03-28T21:59:47.467

0 投票

0 回答

14 浏览

machine-learning - 如何使用具有 dkb 值的集群算法？

我有一个带有几何字段的数据框。我想hdbscan在几何字段上运行集群算法（在这种情况下）。

我正在尝试执行以下步骤：

加载df
创建类似的函数，将字符串转换为wkb并返回 2 点之间的距离。

继承人的代码：

但我收到错误（fit在线）：

如何hdbscan在 wkb 值上运行（或任何其他集群算法）？

machine-learning scikit-learn hdbscan

2021-03-30T11:34:30.423

0 投票

1 回答

60 浏览

scikit-learn - 我们可以改装或适应零件聚类算法吗？

我想对大数据集（超过 1M 条记录）进行聚类。
我想为这个聚类任务使用dbscanorhdbscan算法。

当我尝试使用其中一种算法时，我遇到了内存错误。

有没有办法将大数据集分成几部分？（使用 for 循环并每 1000 条记录重新调整一次）？
如果没有，是否有更好的方法来集群大数据集，而不升级机器内存？

scikit-learn hierarchical-clustering unsupervised-learning dbscan hdbscan

2021-04-07T08:35:27.990

0 投票

0 回答

47 浏览

python - 如何在文本数据上使用 HDBSCAN？

我有一组电子邮件，其中包含提取的关键字数组和金属标签。我想在 python 中使用 HDBSACN 进行主题聚类，但我找不到任何示例，它是在 hdbscan 中使用的数据的正确格式。

我应该如何形成我的 Mail 类的列表来放置fit()方法？

python data-analysis hdbscan

2021-04-13T19:55:24.060

0 投票

0 回答

30 浏览

cluster-analysis - 测量分布中的“单个最强峰”

我想自动检测数据是否具有非常明显的峰值，具有任何特定的分布。否则数据可能会非常嘈杂，或者可能有几个“假”峰。以下是我期望的一些性能示例，越高越好：

多式联运：测量分数低
平：测量分数低
锯齿状，没有真正的高点：测量分数低
一个明确定义的峰，无论尾部厚度或其他考虑因素如何：测量得分高

密度峰值聚类能否成为一种解决方案，尤其是 HDBSCAN？或者，如果专门用于查找单个值的峰值，是否有另一种计算速度更快的聚类算法？

我还认为这可能更像是一个模式识别问题，可能会使神经网络变得有用。

cluster-analysis probability-distribution hdbscan kurtosis

2021-04-20T22:48:22.977

0 投票

0 回答

188 浏览

python - 与 bertopic 一起使用的 hdbscan 出现问题：OSError: [Errno 22] Invalid argument

我写作是因为我有一个问题（我知道这是愚蠢而明显的介绍）。

我正在尝试使用 RStudio 中的 Python 解释器和reticulate扩展来使用 BERTopic 包：

Python 3.6.13 (C:/Users/Francesco/AppData/Local/r-miniconda/envs/r-reticulate/python.exe)
Reticulate 1.18.9008 REPL——R 中的 Python 解释器。

我设法安装它 pip3 install bertopic

起初，尝试安装会bertopic导致与hdbscan依赖关系有关的错误，特别是与所使用的轮子有关的错误；我通过 conda 安装 hdbscan 克服了它（使用 pip 问题似乎无法解决），并且在这样做之后似乎两者都已安装并且很好（pip 会确认）。

之后，我尝试按照Medium/Towards Data Science 中的包教程（这里是我正在关注的Colab版本）来熟悉这个包并检查一切是否按预期工作。

我基本上是在我正在使用的 RMarkdown 文件中的 Python 块上复制和粘贴 Colab 的代码，但是当我尝试将教程的相同代码应用于所使用的相同数据集时：

我收到以下错误：

批次：100%|##########| 589/589 [28:21<00:00, 2.89s/it]
2021-04-29 16:24:25,973 - BERTopic - 将文档转换为嵌入
2021-04-29 16:24:35,752 - BERTopic - 使用降维UMAP
OSError：[Errno 22] 无效参数

理论上，按照 colab 的输出，我应该得到：

..................... - BERTopic - 使用 HDBSCAN 的集群 UMAP 嵌入

因为我有问题，hdbscan我相信它与它有某种关系，我阅读了几个 GitHub 和 Stackoverflow 页面，指出了这样一个包的问题，但我不知道如何解决这个问题，但我真的需要，因为我需要为我的论文使用包。

有人能帮助我吗？

PS：这是我第一次在 stackoverflow 上提问：我希望我写下了所有必要的信息，但如果缺少某些信息，请告诉我。

python r oserror hdbscan

2021-04-29T16:54:05.850

0 投票

0 回答

54 浏览

python - 用 HDBSCAN 聚类相似的行

上图是视频中的一帧。最终目标是检测门。我想要做的是类似于圆圈的聚类线，其中未圈出的线是异常值。我的发现告诉我这是一个 HDBSCAN 问题，所以我尝试像这样实现 HDBSCAN：

我尝试了 2 种方法，一种是按原样传递行列表，这给出了非常糟糕的结果，我假设这是因为 HDBSCAN 不知道坐标代表一条线。第二种是传入每行中点的列表，效果更好但仍然不是很好。有没有办法可以改进这一点并获得与预期结果更相似的东西？

原始图像

python opencv line-segment hdbscan

2021-04-30T19:09:21.627

0 投票

2 回答

2527 浏览

python - 如何解决“hdbscan 构建轮子失败”？

我尝试使用下载 Hdbscan pip install hdbscan，我得到了这个：

错误：hdbscan 的构建轮失败

错误：无法为使用 PEP 517 且无法直接安装的 hdbscan 构建轮子

我尝试了几种解决方案，但都没有奏效。

python pip hdbscan

2021-05-01T03:39:30.193

0 投票

1 回答

607 浏览

machine-learning - HDBSCAN参数之间的差异

我对 HDBSCAN 中以下参数之间的区别感到困惑

min_cluster_size
min_samples
cluster_selection_epsilon

如我错了请纠正我。

对于min_samples，如果设置为 7，则形成的簇需要有 7 个或更多点。因为cluster_selection_epsilon如果设置为 0.5 米，则任何相距超过 0.5 米的簇都不会合并为一个。这意味着每个集群将仅包含相距 0.5 米或更小的点。

那和有什么不同min_cluster_size？

machine-learning scikit-learn cluster-analysis hierarchical-clustering hdbscan

2021-06-09T05:22:02.300

0 投票

0 回答

67 浏览

python - 如何在 python 中使用 HDBSCAN 来检测图中的异常值？

我使用 NETWORKX 创建了一个加权图，我想检测该图的异常值。在他们的文档中，他们展示了如何做，问题是clusterer.labels_不按顺序显示集群列表，因此我可以检测哪个节点是异常值来删除它。我怎样才能做到这一点？

python graph networkx outliers hdbscan

2021-06-26T00:34:41.837

问题标签 [hdbscan]

Reference