问题标签 [dbscan]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
340 浏览

java - java中的dbscan集群用于文本文件

我将在文本文件中的 Java 中对我的数据进行集群,并且我想使用 Apache clusterer 的 DBSCAN 集群,不幸的是我无法理解它的工作原理。我会很感激帮助我,因为我今天应该这样做:(

0 投票
1 回答
212 浏览

mapreduce - 迭代算法

我知道 k-means 算法是迭代的。如果我们想使用 MapReduce 运行它,则必须在每次迭代中重新加载和重新处理整个输入数据,这会增加通信成本。但我的问题是 DBSCAN 和 SCAN 是否也像 k-means 和 k-medoid 一样迭代?

0 投票
1 回答
671 浏览

r - 我如何使用 cluster.stats() 作为 dbscan 的结果

当我写

cluster.stats( )那么,写结果的权利是什么?dbscan

0 投票
2 回答
652 浏览

java - Apache DBSCANClusterer 总是在集群中返回一个点

我正在尝试使用 apache.commons.math3.ml.clustering 包中的 DBSCANClusterer,但没有成功。我正在使用 Apache Common Math 3.4.1

当我运行 DBSCANClusterer.cluster() 方法时,我总是得到一个带有一个点的集群,它始终对应于我的点列表中的第一个点。

我的输出总是: [1009.0, 1019.0] 。我在这里做错了什么?

0 投票
2 回答
5433 浏览

machine-learning - 使用 sklearn DBSCAN 模型对新条目进行分类

我有一个巨大的“动态”数据集,我试图在上面找到有趣的集群。

在运行了很多不同的无监督聚类算法之后,我发现了一个DBSCAN的配置,它给出了一致的结果。

我想推断DBSCAN根据我的测试数据创建的模型以将其应用于其他数据集,但无需重新运行算法。我无法在整个数据集上运行该算法,因为它会耗尽内存,并且由于数据是动态的,因此该模型在不同的时间对我来说可能没有意义。

使用sklearn,我发现其他聚类算法(例如MiniBatchKMeans)有一种predict方法,但DBSCAN没有。

我知道对于MiniBatchKMeans质心唯一地定义模型。但这样的事情可能不存在DBSCAN

所以我的问题是:推断DBSCAN模型的正确方法是什么?DBSCAN我应该使用在我的测试数据集上给出的输出来训练监督学习算法吗?还是有一些本质上属于DBSCAN模型的东西可以用来对新数据进行分类而无需重新运行算法?

0 投票
1 回答
800 浏览

java - 用于提取密度可达点的 DBSCAN 库

我正在使用 DBSCAN 库从一组数据中提取集群。到目前为止,我已经使用 Apache Common Math 和 WEKA 库测试了 DBSCAN。(我的问题不在于哪些库可用于 DBSCAN 的实现)

到目前为止,我已经了解到在 DBSCAN 中有 3 种类型的点(根据维基百科):核心点、(密度)可达点和异常值。我的问题是我需要提取集群及其边界点或其密度可达点。

你知道任何允许我提取每个集群的密度可达点的 DBSCAN 库吗?

0 投票
1 回答
350 浏览

r - 使用 R 在 DBSCAN 中获取噪声

我有一个包含足球比赛投注的数据集。我正在使用 3 个参数进行异常值检测,即主队获胜的几率、比赛以平局结束的几率以及客队获胜的几率。

每条记录看起来像这样:

我已经确定了集群,但很难确定哪个包含噪声,最合理的似乎是最后一个集群(即,如果我有 10 个集群,则集群 10 将是噪声。)

这是使用从我的数据集中获取异常值的正确DBSCAN方法吗,有更好的方法吗?

另外,如果不手动检查,我怎么知道我必须获得最后一个(有噪音的那个)多少簇?

我对统计编程和异常值检测完全陌生,如果我听起来完全无能为力,我深表歉意。

0 投票
2 回答
397 浏览

cluster-analysis - 在 DBSCAN 中,eps 实际上代表什么?

假设我已经找到了所有密度的eps。我从这里应用了方法http://ijiset.com/v1s4/IJISET_V1_I4_48.pdf

如果您不介意,请打开第 5 页并查看建议算法部分。在步骤 10.1,论文告诉我们计算eps-neighborhood中的对象数量。

eps实际上代表什么?画圆是半径吗?那么,为什么半径这么小,比两个物体之间的距离还小呢?如果是这样,MinPts 将永远为 0。

0 投票
1 回答
2401 浏览

r - 如何绘制 DBSCAN 聚类 R 输出

我正在尝试根据客户的空间位置对客户数据进行聚类。这是我所做的,

它给了我大约 23 个集群,

第一个问题 --> 如何在地图中绘制这些集群?如果有人向我指出一些示例代码来绘制集群,那就太好了,我试图在新西兰地图上绘制它。我尝试下载坐标和变换如下,

但是在我的 MAC 中出现这个错误,

第二个问题,我在某处读到 k-means 不适合空间聚类,然后,我尝试使用层次聚类对其进行聚类,但它产生了一个大的树状图,更密集的树状图,因此无法从中获得任何信息。所以选择 DBSCAN 来做这件事。但是在这一个中,我可以看到许多点落在边界上,正如结果所暗示的那样。我确信每个集群中我需要大约 50-70 个客户。但是我应该选择什么 eps 值呢?这是我的示例数据。

按要求更新我的会话信息,

根据要求更新库(rgdal)输出,

注意:-我已经明确提到我正在尝试绘制空间聚类输出并寻找选项,而我的选项之一出错了。还有一个问题要涵盖边界集群值。

0 投票
1 回答
287 浏览

r - Knowing which points belong to which cluster in DBSCAN

I need to use DBSCAN to cluster betting odds of soccer matches.

The data consists of :

ID, Home Team, Away Team, Date, Time, Home Winning Odds, Draw Odds and Away Winning Odds.

I need Home Winning Odds, Draw Odds and Away Winning Odds for the DBSCAN clustering because I want to find outliers using the noise cluster.

However I have no means of knowing those points to which record they belonged.]

I am working with GNU R to use the algorithm using the package fpc