问题标签 [hdbscan]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - HBSCAN membership probability
I'm working on a comparison between clustring algorithms and I want to know how HDBSCAN in R calculate the so called the membership 'probability' ?
machine-learning - 如何使用具有 dkb 值的集群算法?
我有一个带有几何字段的数据框。我想hdbscan
在几何字段上运行集群算法(在这种情况下)。
我正在尝试执行以下步骤:
- 加载
df
- 创建类似的函数,将字符串转换为
wkb
并返回 2 点之间的距离。
继承人的代码:
但我收到错误(fit
在线):
如何hdbscan
在 wkb 值上运行(或任何其他集群算法)?
scikit-learn - 我们可以改装或适应零件聚类算法吗?
- 我想对大数据集(超过 1M 条记录)进行聚类。
- 我想为这个聚类任务使用
dbscan
orhdbscan
算法。
当我尝试使用其中一种算法时,我遇到了内存错误。
- 有没有办法将大数据集分成几部分?(使用 for 循环并每 1000 条记录重新调整一次)?
- 如果没有,是否有更好的方法来集群大数据集,而不升级机器内存?
python - 如何在文本数据上使用 HDBSCAN?
我有一组电子邮件,其中包含提取的关键字数组和金属标签。我想在 python 中使用 HDBSACN 进行主题聚类,但我找不到任何示例,它是在 hdbscan 中使用的数据的正确格式。
我应该如何形成我的 Mail 类的列表来放置fit()
方法?
cluster-analysis - 测量分布中的“单个最强峰”
我想自动检测数据是否具有非常明显的峰值,具有任何特定的分布。否则数据可能会非常嘈杂,或者可能有几个“假”峰。以下是我期望的一些性能示例,越高越好:
多式联运:测量分数低
平:测量分数低
锯齿状,没有真正的高点:测量分数低
一个明确定义的峰,无论尾部厚度或其他考虑因素如何:测量得分高
密度峰值聚类能否成为一种解决方案,尤其是 HDBSCAN?或者,如果专门用于查找单个值的峰值,是否有另一种计算速度更快的聚类算法?
我还认为这可能更像是一个模式识别问题,可能会使神经网络变得有用。
python - 与 bertopic 一起使用的 hdbscan 出现问题:OSError: [Errno 22] Invalid argument
我写作是因为我有一个问题(我知道这是愚蠢而明显的介绍)。
我正在尝试使用 RStudio 中的 Python 解释器和reticulate
扩展来使用 BERTopic 包:
Python 3.6.13 (C:/Users/Francesco/AppData/Local/r-miniconda/envs/r-reticulate/python.exe)
Reticulate 1.18.9008 REPL——R 中的 Python 解释器。
我设法安装它
pip3 install bertopic
起初,尝试安装会bertopic
导致与hdbscan
依赖关系有关的错误,特别是与所使用的轮子有关的错误;我通过 conda 安装 hdbscan 克服了它(使用 pip 问题似乎无法解决),并且在这样做之后似乎两者都已安装并且很好(pip 会确认)。
之后,我尝试按照Medium/Towards Data Science 中的包教程(这里是我正在关注的Colab版本)来熟悉这个包并检查一切是否按预期工作。
我基本上是在我正在使用的 RMarkdown 文件中的 Python 块上复制和粘贴 Colab 的代码,但是当我尝试将教程的相同代码应用于所使用的相同数据集时:
我收到以下错误:
批次:100%|##########| 589/589 [28:21<00:00, 2.89s/it]
2021-04-29 16:24:25,973 - BERTopic - 将文档转换为嵌入
2021-04-29 16:24:35,752 - BERTopic - 使用降维UMAP
OSError:[Errno 22] 无效参数
理论上,按照 colab 的输出,我应该得到:
..................... - BERTopic - 使用 HDBSCAN 的集群 UMAP 嵌入
因为我有问题,hdbscan
我相信它与它有某种关系,我阅读了几个 GitHub 和 Stackoverflow 页面,指出了这样一个包的问题,但我不知道如何解决这个问题,但我真的需要,因为我需要为我的论文使用包。
有人能帮助我吗?
PS:这是我第一次在 stackoverflow 上提问:我希望我写下了所有必要的信息,但如果缺少某些信息,请告诉我。
python - 如何解决“hdbscan 构建轮子失败”?
我尝试使用下载 Hdbscan pip install hdbscan
,我得到了这个:
错误:hdbscan 的构建轮失败
错误:无法为使用 PEP 517 且无法直接安装的 hdbscan 构建轮子
我尝试了几种解决方案,但都没有奏效。
machine-learning - HDBSCAN参数之间的差异
我对 HDBSCAN 中以下参数之间的区别感到困惑
- min_cluster_size
- min_samples
- cluster_selection_epsilon
如我错了请纠正我。
对于min_samples
,如果设置为 7,则形成的簇需要有 7 个或更多点。因为cluster_selection_epsilon
如果设置为 0.5 米,则任何相距超过 0.5 米的簇都不会合并为一个。这意味着每个集群将仅包含相距 0.5 米或更小的点。
那和 有什么不同min_cluster_size
?
python - 如何在 python 中使用 HDBSCAN 来检测图中的异常值?
我使用 NETWORKX 创建了一个加权图,我想检测该图的异常值。在他们的文档中,他们展示了如何做,问题是clusterer.labels_
不按顺序显示集群列表,因此我可以检测哪个节点是异常值来删除它。我怎样才能做到这一点?