问题标签 [cluster-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
11943 浏览

r - Correlation clustering in R

I'd like to use correlation clustering and I figure R is a good place to start.

I can present the data to R as a set of large, sparse vectors or as a table with a pre-computed dissimilarity matrix.

My questions are:

  • are there existing R functions to turn this into a hierarchical cluster with agnes that uses correlation clustering?
  • will I have to implement the (admittedly simple) correlation clusteringfunction by hand, if so how do I make it play well with agnes?
0 投票
2 回答
2084 浏览

python - 基于缩放级别的服务器端坐标集群

多亏了这个答案,我设法想出了一个临时解决方案来解决我的问题。

但是,随着每天增长的 6000 个点的列表,它变得越来越慢。

我不能使用第三方服务*,因此我需要提出自己的解决方案。

以下是我的要求:

  1. 坐标的聚类需要与地图的任何缩放级别一起使用。

  2. 所有集群都需要缓存

  3. 理想情况下,如果添加了新点,则不需要在所有点上进行聚类(计算距离)。

到目前为止,我已经实现了四叉树,它返回地图的四个边界并返回地图可视部分内的任何坐标。

我需要并且我知道这并不容易是从数据库(postgres)返回点的集群。

0 投票
2 回答
536 浏览

string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

任务:
将大量短 DNA 片段聚集在具有共同子序列模式的类中,并找到每个类的共有序列。

  • 游泳池:约。300个序列片段
  • 每个片段 8 - 20 个字母
  • 4 个可能的字母:a,g,t,c
  • 每个片段都分为三个区域:
    1. 5个通用字母
    2. g和c的8个或更多位置
    3. 5个通用字母
      (作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}

计划:
执行多重比对(即与ClustalW2)以查找在区域2 中共享共同序列及其共有序列的类。

问题:

  1. 我的碎片是否太短,是否有助于增加它们的大小?
  2. 区域 2 是否过于同质,只有两种允许的字母类型,无法在其序列中显示模式?
  3. 您可以为这项任务推荐哪些替代方法或工具?

此致,

西蒙

0 投票
1 回答
667 浏览

image - 为聚类数据编写图像的相似性函数

我知道如何为欧几里得空间中的数据点编写相似度函数(通过取负最小平方误差。)现在,如果我想检查图像上的聚类算法,如何为图像中的数据点编写相似度函数?我是基于它们的 RGB 值还是什么?如何?

0 投票
5 回答
2800 浏览

algorithm - 聚类巨大的向量空间

我正在做一些测试,对大量非常大的稀疏向量进行聚类,这些向量表示各种超文本文档的词频逆文档频率。考虑到数据集的比例,你建议用什么算法来聚类这些数据?向量的维度将 > 3·10 5并且向量的数量可能在 10 9左右。我看过 dbscan 和光学算法。集群的数量是未知的。如此高维的空间索引似乎很复杂。

0 投票
8 回答
89407 浏览

python - Python k-means 算法

我正在寻找 k-means 算法的 Python 实现以及集群和缓存我的坐标数据库的示例。

0 投票
2 回答
4604 浏览

cluster-analysis - 模糊 c-means 算法的简单/实用示例

我正在写关于动态击键身份验证主题的硕士论文。为了支持正在进行的研究,我正在编写代码来测试不同的特征提取和特征匹配方法。

我目前的简单方法只是检查参考密码键码是否与当前键入的键码匹配,并检查按键时间(停留)和按键时间(飞行)是否与参考时间 +/- 100 毫秒(公差)。这当然是非常有限的,我想用某种模糊的 c-means 模式匹配来扩展它。

对于每个键,功能如下所示:键码、停留时间、飞行时间(第一次飞行时间始终为 0)。

显然,键码可以从模糊算法中取出,因为它们必须完全相同。在这种情况下,模糊 c-means 的实际实现会是什么样子?

0 投票
8 回答
5088 浏览

algorithm - 样本量大时计算字符串相似度分数的有效方法?

假设您有一个包含 10,000 个电子邮件地址的列表,并且您想查找此列表中一些最接近的“邻居”是什么 - 定义为与您列表中的其他电子邮件地址可疑地接近的电子邮件地址。

我知道如何计算两个字符串之间的Levenshtein 距离(感谢这个问题),这将为我提供将一个字符串转换为另一个字符串需要多少操作的分数。

假设我将“可疑地靠近另一个电子邮件地址”定义为 Levenshtein 分数小于 N 的两个字符串。

除了将每个可能的字符串与列表中的每个其他可能的字符串进行比较之外,是否有更有效的方法来查找分数低于此阈值的字符串对?换句话说,这种类型的问题能比 解决得更快O(n^2)吗?

Levenshtein 对这个问题的算法选择是否糟糕?

0 投票
2 回答
399 浏览

cluster-analysis - 是否有众所周知的分类器库?

我正在从互联网上抓取数据,没有分类。

有这样的图书馆推荐吗?

编辑

我正在从其他网站抓取工作,我需要将它们分组到不同的行业。

0 投票
2 回答
6628 浏览

c++ - OpenCV K-Means (kmeans2)

我正在使用 Opencv 的 K-means 实现来聚类一大组 8 维向量。它们集群很好,但我找不到任何方法来查看集群过程创建的原型。这甚至可能吗?OpenCV 似乎只允许访问集群索引(或标签)。

如果不是,我想是时候自己实现了!