问题标签 [dbscan]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - 有哪些实现半监督(约束)聚类的包?
我想对半监督(约束)聚类进行一些实验,特别是作为实例级成对约束(必须链接或不能链接约束)提供的背景知识。我想知道是否有任何实现半监督聚类的优秀开源包?我尝试查看 PyBrain、mlpy、scikit 和 orange,但找不到任何受约束的聚类算法。特别是,我对约束 K-Means 或基于约束密度的聚类算法(如 C-DBSCAN)感兴趣。Matlab、Python、Java 或 C++ 中的包将是首选,但不必限于这些语言。
dbscan - ELKI如何提高精度?
我正在使用 ELKI mini GUI 对我的数据点进行聚类。我有大约 1300 个 GPS 数据点,我想对我的 GPS 点(DBSCAN 和 OPTICS)进行聚类。作为 dbc.in 的输入文件,我使用只有 2 列(X,Y)的 csv 文件。问题是,我的 X,Y(投影)坐标非常精确,精确到小数点后 6 位。但是在运行集群算法之后,我的精度越来越低(最多小数点后 3 位)。如何提高输出点的精度?
而且在生成集群时,它会自动调用一些与我的实际点 ID(ID、X、Y)不对应的虚拟 ID。但是,输入 csv 中没有给出 ID。它仅包含两列 (X,Y)。
machine-learning - DBSCAN 算法能否创建一个小于 minPts 的集群?
我刚刚编写了 DBSCAN 算法,我想知道 DBSCAN 算法是否可以允许集群中的点数小于使用的 minPts 参数的集群。
我一直在使用http://people.cs.nctu.edu.tw/~rsliang/dbscan/testdatagen.html来验证我的实现,它似乎工作正常,只是遇到了这个问题。
我正在对样本数据集进行一些模拟,并且我一直在使用 3 的 minPts。DBSCAN 算法通常会从数据集中创建 2 个点的集群(尽管从不 1)。这是设计使然还是我搞砸了实施?
一些样本数据,eps = 0.1,minPts = 3。
输出集群:
python - 使用带有 pdist 和 squareform 的 nparray 创建距离矩阵
我正在尝试使用 DBSCAN(scikit 学习实现)和位置数据进行集群。我的数据是 np 数组格式,但是要将 DBSCAN 与 Haversine 公式一起使用,我需要创建一个距离矩阵。当我尝试执行此操作时出现以下错误(“模块”不可调用错误。)从我在线阅读的内容来看,这是一个导入错误,但我很确定这不是我的情况。我创建了自己的半正弦距离公式,但我确信错误不在于这个。
这是我的输入数据,一个 np 数组(ResultArray)。
这是出错的代码行。
这是错误消息:
我将 scipy 导入为 sp。(将 scipy 导入为 sp)
cluster-analysis - 选择和实施聚类方法:DBSCAN 还有什么?
我需要对经纬度坐标的数据集进行聚类。我使用 python 作为我的语言并计划使用 DBSCAN,因为我不想指定集群的数量。
目标和目的是能够输入包含许多附加特征的经纬度坐标的大型数据集,并分配将返回的集群组。包含 [lat long feature1, feature2 ....] 形式的条目的原始数据库需要用一个名为“cluster group”的新字段进行修改:[lat long clustergroup feature1, feature2 ....]。这将帮助我确定哪些数据点紧密地组合在一起,而无需在地图上绘制。我希望异常值将被赋予单独的组 ID,并且很大程度上聚集在一起的点将被赋予相同的组 ID。
在我转换 lat,long -->x,y 并忽略 z 坐标之后,我对 DBSCAN 的输入将是 x,y 坐标。我在用:
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN http://scikit-learn.org/stable/auto_examples/index.html
我很难理解如何设置此功能的输入。我可以输入 x,y 坐标吗?这会是一个元组列表吗?如果有人可以帮助我想象这一点,那将是一个很大的帮助。
另外,您能解释一下 DBSCAN 与层次聚类有何不同吗?
cluster-analysis - Analytical way of estimating neighborhood radius for DBSCAN
I have seen many DBSCAN algorithm implemented using a formula to estimate the neighborhood radius (Eps) based on the given minimum points within a cluster (k).
[full code] http://toolz.googlecode.com/svn/trunk/CWT/dbscan.py
I have searched extensively to understand how this analytical formula was derived but been unsuccessful.
python - 在 scikit DBSCAN 中查找每个集群内的元素?
我正在尝试探索 Scikit DBSCAN。有件事我想知道。我怎样才能知道每个集群中的点。
此代码是scipy 网站中的示例:
看来我需要找到一种算法来逆向工程
DBSCAN 的 scipy 实现见DBSCAN Code - DBSCAN Test Unit
我想打印属于每个集群的三个集群和点。
更新
当我尝试运行 inverse_transform() 函数时,出现错误
文件“/Users/macbook/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.py”,第 384 行,inverse_transform
你可以在这里找到代码: https ://github.com/scikit-learn/scikit-learn/blob/master/sklearn/preprocessing/data.py
这是我得到错误的地方。有什么想法可以解决这个问题吗?
r - DBScan 函数 - 如何获取所有迭代图
通过使用函数 dbscan 如下:
我们可以在每次迭代中看到集合图。不幸的是,有很多情节,所以在 R-Studio 中我只有最后 30 个。我怎样才能得到所有的情节?
如果我做:
它当然行不通。
cluster-analysis - 对纬度/经度对使用自定义距离度量进行聚类
我正在尝试为 scikit-learn DBSCAN 实现指定一个自定义聚类函数:
但是,当我打印出距离函数的参数时,它们根本不是我所期望的:
这就是我的 found_geopoints 数组的样子:
那么为什么不是距离函数纬度经度对的参数呢?
machine-learning - 哪些点在 EPS、DBSCAN 中很重要
在 DBSCAN 中,如果我们有 minPoints=3 并且我们想确定一个点是否是核心点,你是在 Eps 中计算点本身还是需要在它的 Eps 中有 3 个其他点?