问题标签 [hdbscan]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 HDBSCAN 的可调用指标*
我想用 HDBSCAN* 对一些数据进行聚类。
距离是根据两个值的某些参数的函数计算的,因此如果数据如下所示:
两个样本之间的距离将类似于:
由于数据的大小,我无法计算距离矩阵,所以似乎可调用是我唯一的选择。
我的代码看起来像:
错误:fit() got an unexpected keyword argument 'i
错误:
ValueError: Expected 2D array, got scalar array instead:array=4830.
Reshape your data either using array.reshape(-1, 1) if your data has a single feature
or array.reshape(1, -1) if it contains a single sample.
它不起作用,我还尝试将内部参数更改为原始数据集名称:
错误:raise ValueError("Found array with dim %d. %s expected <= 2.")
ValueError: setting an array element with a sequence.
但它也不能接受。
我想念什么?
cluster-analysis - 无法预测“dbscan”包下可用的 hdbscan 功能下新点的集群成员资格
我正在使用名为“dbscan”的包下的 hdbscan 函数对数据执行聚类。构建集群后,我无法预测新数据点的成员资格。predict 函数适用于在 dbscan 函数下构建的对象,但不适用于 hdbscan。错误是:“UseMethod(“预测”)中的错误:没有适用于“预测”的方法应用于“hdbscan”类的对象”
有什么建议吗?
python - 使用 HDBSCAN 减少空间数据集大小
我试图通过对它们进行聚类并找到聚类的中心点来减少空间数据集的大小。我参考了这篇文章(它使用DBSCAN
了 ),除了现在数据集大小增加了,我现在无法处理内存错误的 b/c 之外,它有点帮助。所以,我切换到下一个最好的东西HDBSCAN
。但是,我得到了一些奇怪的结果。首先,我使用以下内容:
这能够提供集群,但是当我深入研究这些集群时,它们实际上是相同的。例如,由相似地理位置组成的两个集群。我的想法是它应该是一个单一的集群。
其次,为了解决上述问题,我尝试使用在同一个集群cluster_selection_epsilon=0.1/6371
中集群地理位置100m
。
但是,然后我得到了一个包含十万多个点的大集群,并且在绘制时folium
我发现这些点不在100m
相距之内,而是它们是相距超过 100m 的单独的点集群。我可能没有使用min_cluster_size
度量haversine
标准。有人可以解释发生了什么。如何实现聚类相似地理位置的目标。并将集群缩小到一个中心点?
cluster-analysis - 如何在 dbscan 或 hdbscan 集群中查找热门术语?
我正在使用来自 sklearn 和 HDBSCAN 的 dbscan 对一些文档进行聚类。
现在我怎样才能获得每个集群中的顶级术语?使用 kmeans 时,我们会执行以下操作:
但是在 dbscan 和 hdbscan 中,我们没有质心。我们如何在 dbscan 或 hdbscan 的集群中找到排名靠前的术语?
python - HDBSCAN 和近似预测的问题
我想使用 HDBSCAN 聚类技术来预测异常值。我已经训练了我的模型来优化参数,但是当我对新数据应用approximate_predict 时,我得到了与原始模型中不同的集群和标签。我将在这里解释处理流程。
我有一个如下所示的数据集:
我应该注意到,这个数据集有我人为添加的异常值,目的是优化参数。然后,我申请:
获得三个簇(包括异常值-1簇):
在这里,您可以看到集群的样子:
在此之后,我创建了一个名为“new_observation”的数据框,它实际上是从原始数据集中获取的一些随机观察结果,我应用了:
在这里,我的测试标签看起来像: array([ -1, 56, 150, -1])
这意味着从这些观察中,它检测到两个异常值,以及分配给我没有的集群的两个观察。
此外,看看像这样的绘图:
我们可以观察到我们在不应该有的地方有异常值。
我真的不知道近似预测是如何进行聚类的,但似乎不起作用,有人可以帮助我吗???
谢谢!!!!
python - 按距离和约束对地理点列表进行聚类
我有一个交付应用程序,我想按位置接近度(线性距离)和限制(例如最大订单和最大总产品(每个订单都有一定数量的产品))对订单进行分组(每个订单都有一个纬度和经度坐标) .
对于邻近分组,我使用 DBSCAN
如何在此功能中添加约束?
有没有办法通过使用 DBSCAN 或 HDBSCAN 以外的东西来做到这一点?
python - 如何从 HDBSCAN 算法中提取聚类
我想提取形成每个集群的原始点,我知道 HDBSCAN 没有集群中心,所以我想如果每个标签以相同的顺序对应于原始点,我可以执行以下操作,但结果是特别糟糕 !!
machine-learning - DBSCAN 异常检测
我在我的训练数据集上使用 DBSCAN,以便在训练模型之前找到异常值并从数据集中删除这些异常值。我在我的火车行 7697 上使用 DBSCAN,有 8 列。这是我的代码
Q-1 在这 7 个中,有些是离散的,有些是连续的,是否可以同时缩放离散和连续或只是连续?Q-2 我需要将集群映射到从训练中学到的测试数据吗?
hierarchical-clustering - DBSCAN 和 HDBSCAN 的结果相同吗?
DBSCAN(epsilon, minPts = 2) 与单链接聚类有关,HDBSCAN(minPts = 2) 也与单链接聚类有关。
我的问题是:如何使用这些设置获得相同的聚类结果?或者需要在 HDBSCAN 中设置其他参数(hdbscan 库中有很多参数)?
python - 在进入第一个函数之前,Python HDBScan 类总是在第二次迭代中失败
我正在尝试使用几种不同的 SKLearn、HDBScan 和自定义异常值检测类来查看综合异常值信息。但是,由于某种原因,我一直遇到一个错误,即无法迭代任何使用 HDBScan 的类。所有其他 Sklearn 和自定义类都可以。我遇到的问题似乎一直发生在 HDBScan 类的第二遍,并立即发生在 algorithm.fit(tmp) 上。在调试脚本时,看起来甚至在到达类的第一行之前就抛出了错误。
有什么帮助吗?以下是最小可行复制:
提供的错误不是最有用的。