“dbscan”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

340 浏览

java - java中的dbscan集群用于文本文件

我将在文本文件中的 Java 中对我的数据进行集群，并且我想使用 Apache clusterer 的 DBSCAN 集群，不幸的是我无法理解它的工作原理。我会很感激帮助我，因为我今天应该这样做:(

2015-02-22T16:24:09.557

0 投票

1 回答

212 浏览

mapreduce - 迭代算法

我知道 k-means 算法是迭代的。如果我们想使用 MapReduce 运行它，则必须在每次迭代中重新加载和重新处理整个输入数据，这会增加通信成本。但我的问题是 DBSCAN 和 SCAN 是否也像 k-means 和 k-medoid 一样迭代？

mapreduce cluster-analysis dbscan

2015-03-05T06:46:13.110

0 投票

1 回答

671 浏览

r - 我如何使用 cluster.stats() 作为 dbscan 的结果

当我写

cluster.stats( )那么，写结果的权利是什么？dbscan

r cluster-computing cluster-analysis dbscan

2015-03-27T18:48:08.897

0 投票

2 回答

652 浏览

java - Apache DBSCANClusterer 总是在集群中返回一个点

我正在尝试使用 apache.commons.math3.ml.clustering 包中的 DBSCANClusterer，但没有成功。我正在使用 Apache Common Math 3.4.1

当我运行 DBSCANClusterer.cluster() 方法时，我总是得到一个带有一个点的集群，它始终对应于我的点列表中的第一个点。

我的输出总是： [1009.0, 1019.0] 。我在这里做错了什么？

java cluster-analysis dbscan apache-commons-math

2015-03-30T15:21:39.333

0 投票

2 回答

5433 浏览

machine-learning - 使用 sklearn DBSCAN 模型对新条目进行分类

我有一个巨大的“动态”数据集，我试图在上面找到有趣的集群。

在运行了很多不同的无监督聚类算法之后，我发现了一个DBSCAN的配置，它给出了一致的结果。

我想推断DBSCAN根据我的测试数据创建的模型以将其应用于其他数据集，但无需重新运行算法。我无法在整个数据集上运行该算法，因为它会耗尽内存，并且由于数据是动态的，因此该模型在不同的时间对我来说可能没有意义。

使用sklearn，我发现其他聚类算法（例如MiniBatchKMeans）有一种predict方法，但DBSCAN没有。

我知道对于MiniBatchKMeans质心唯一地定义模型。但这样的事情可能不存在DBSCAN。

所以我的问题是：推断DBSCAN模型的正确方法是什么？DBSCAN我应该使用在我的测试数据集上给出的输出来训练监督学习算法吗？还是有一些本质上属于DBSCAN模型的东西可以用来对新数据进行分类而无需重新运行算法？

machine-learning scikit-learn classification cluster-analysis dbscan

2015-04-14T10:55:07.870

0 投票

1 回答

800 浏览

java - 用于提取密度可达点的 DBSCAN 库

我正在使用 DBSCAN 库从一组数据中提取集群。到目前为止，我已经使用 Apache Common Math 和 WEKA 库测试了 DBSCAN。（我的问题不在于哪些库可用于 DBSCAN 的实现）

到目前为止，我已经了解到在 DBSCAN 中有 3 种类型的点（根据维基百科）：核心点、（密度）可达点和异常值。我的问题是我需要提取集群及其边界点或其密度可达点。

你知道任何允许我提取每个集群的密度可达点的 DBSCAN 库吗？

java cluster-analysis weka dbscan apache-commons-math

2015-04-14T18:34:56.527

0 投票

1 回答

350 浏览

r - 使用 R 在 DBSCAN 中获取噪声

我有一个包含足球比赛投注的数据集。我正在使用 3 个参数进行异常值检测，即主队获胜的几率、比赛以平局结束的几率以及客队获胜的几率。

每条记录看起来像这样：

我已经确定了集群，但很难确定哪个包含噪声，最合理的似乎是最后一个集群（即，如果我有 10 个集群，则集群 10 将是噪声。）

这是使用从我的数据集中获取异常值的正确DBSCAN方法吗，有更好的方法吗？

另外，如果不手动检查，我怎么知道我必须获得最后一个（有噪音的那个）多少簇？

我对统计编程和异常值检测完全陌生，如果我听起来完全无能为力，我深表歉意。

r cluster-computing noise outliers dbscan

2015-04-23T11:11:08.737

0 投票

2 回答

397 浏览

cluster-analysis - 在 DBSCAN 中，eps 实际上代表什么？

假设我已经找到了所有密度的eps。我从这里应用了方法http://ijiset.com/v1s4/IJISET_V1_I4_48.pdf

如果您不介意，请打开第 5 页并查看建议算法部分。在步骤 10.1，论文告诉我们计算eps-neighborhood中的对象数量。

eps实际上代表什么？画圆是半径吗？那么，为什么半径这么小，比两个物体之间的距离还小呢？如果是这样，MinPts 将永远为 0。

cluster-analysis data-mining dbscan

2015-04-27T04:13:49.547

0 投票

1 回答

2401 浏览

r - 如何绘制 DBSCAN 聚类 R 输出

我正在尝试根据客户的空间位置对客户数据进行聚类。这是我所做的，

它给了我大约 23 个集群，

第一个问题 --> 如何在地图中绘制这些集群？如果有人向我指出一些示例代码来绘制集群，那就太好了，我试图在新西兰地图上绘制它。我尝试下载坐标和变换如下，

但是在我的 MAC 中出现这个错误，

第二个问题，我在某处读到 k-means 不适合空间聚类，然后，我尝试使用层次聚类对其进行聚类，但它产生了一个大的树状图，更密集的树状图，因此无法从中获得任何信息。所以选择 DBSCAN 来做这件事。但是在这一个中，我可以看到许多点落在边界上，正如结果所暗示的那样。我确信每个集群中我需要大约 50-70 个客户。但是我应该选择什么 eps 值呢？这是我的示例数据。

按要求更新我的会话信息，

根据要求更新库（rgdal）输出，

注意：-我已经明确提到我正在尝试绘制空间聚类输出并寻找选项，而我的选项之一出错了。还有一个问题要涵盖边界集群值。

r plot cluster-analysis hierarchical-clustering dbscan

2015-05-09T09:07:31.360

0 投票

1 回答

287 浏览

r - Knowing which points belong to which cluster in DBSCAN

I need to use DBSCAN to cluster betting odds of soccer matches.

The data consists of :

ID, Home Team, Away Team, Date, Time, Home Winning Odds, Draw Odds and Away Winning Odds.

I need Home Winning Odds, Draw Odds and Away Winning Odds for the DBSCAN clustering because I want to find outliers using the noise cluster.

However I have no means of knowing those points to which record they belonged.]

I am working with GNU R to use the algorithm using the package fpc

r cluster-computing noise outliers dbscan

2015-05-11T09:16:13.743

问题标签 [dbscan]

Reference