问题标签 [k-means]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 解释 mahout clusterdumper 的输出
我对抓取的页面(超过 25K 文档;个人数据集)进行了聚类测试。我做了一个集群转储:
运行 cluster dumper 后的输出显示 25 个元素 "VL-xxxxx {}" :
如何解释这个输出?
简而言之:我正在寻找属于特定集群的文档 ID。
是什么意思 :
- VL-X ?
- n=yc=[z:z', ...]
- r=[z'':z''', ...]
0:0.017 是否意味着“0”是属于该集群的文档 ID?
我已经在 mahout wiki 页面上阅读了 CL、n、c 和 r 的含义。但是有人可以更好地向我解释一下,或者指向一个更详细解释的资源吗?
抱歉,如果我问一些愚蠢的问题,但我是一个新手,使用 apache mahout 并将它用作我的集群课程作业的一部分。
opencv - 在 OpenCV 中实现词汇树
我正在尝试基于论文“Scalable Recognition with a Vocabulary Tree”来实现图像搜索。我正在使用 SURF 来提取特征和关键点。例如,对于一个图像,我得到 300 个关键点,每个关键点有 128 个描述符值。我的问题是如何在数据上应用 K-Means 聚类算法。我的意思是我是否需要对所有点应用聚类算法,即 300*128 值,或者我是否需要找到连续描述符值之间的距离并存储这些值并对其应用聚类算法。我很困惑,任何帮助将不胜感激。
谢谢,洛基。
java - 有没有一种方法可以将以下矩阵作为 kmeans 聚类程序的输入?
想象一下,我有以下“浏览量矩阵”
列标题:书籍放置资源 br aca
每行代表一个会话
所以这是我的矩阵,示例:
4 5 0 2 2
1 2 1 7 3
1 3 6 1 6
保存在 .txt 文件中
我可以将其作为 k-means 程序的输入并根据最高出现频率获取集群吗?
我如何使用它?
algorithm - 随机聚类算法
我有一组点,我想从中得到簇。我知道如何做普通的 k-means 算法。但我不想将“k”作为输入。假设如果我有像 1,3,4,50,60,70,1000,10002,10004 这样的点,算法应该将它们聚集成 3 个簇 C1:1,3,4 C2:50,60,70 C3:1000,1002 ,1004 满足簇内元素之间的距离应该是最小的,并且簇间的距离应该是最大的。
r - r中具有多个个体的聚类分析
抱歉,我不知道如何使用 HTML 或其他任何东西来真正让它看起来“漂亮”。特别是为了让我的示例数据对大家有用。我只是边走边学。
我正在尝试对变量 PersVel、TurnVel 和 Velocity(可能还有其他变量,但这些暂时可用)进行聚类分析。我的数据已经按年份分开,但我每年有不同数量的人(ID 是这些人的名称)。我想对每个个体的这些变量运行 k-means 和/或层次聚类分析。下面的数据只有20个数据点。一旦通过感兴趣的变量确定了集群,我想将其链接回日历日期或日期/时间变量。最终我想知道集群何时发生。
我已经编写了将 ID 转换为级别的代码,并被告知我需要标准化 k-means 聚类的变量(所以我假设你会为分层做同样的事情,但这没什么大不了的)。只是如何让它循环通过个人?
怎么办???我如何写下一部分来做这个测试?
cluster-analysis - Mahout 上的 K-means 返回非独占集群
在我的数据中,我有一个喜欢列表的用户,我已将这些喜欢转储到每个用户的单独文件中,并希望将它们聚集在一起。一切正常,除了输出在多个集群中具有相同的喜好。我的理解是 k-means 应该是排他的。我认为问题可能在于我如何转储数据。在我可以编写自定义标记器之前,我也暂时放弃了所有没有空格的喜欢。这是我正在运行的(来自 ruby 脚本)。
输出列出了每个集群中的“顶级术语”,但是每个集群中都会出现许多类似的词(尽管权重不同)。是clusterdumper的正常输出,我是否需要通过权重找出每个单词所属的簇?
谢谢
java - 如何实现 MFCC 特征的 K-Means 聚类算法?
我用 MFCC 算法得到了一些声音变量的特征。我想用 K-Means 对它们进行聚类。我有 70 帧,每帧都有一个语音样本的 9 个倒谱系数。这意味着我有一个 70*9 大小的矩阵。
让我们假设 A、B 和 C 是语音记录,所以
一个是:
而且B和C也有相同的长度。
我不想对每个帧进行聚类,我想对每个帧块进行聚类(在我的示例中,一组有 70 个帧)。
如何在 Java 中使用 K-Means 实现它?
java - 如何在 K-Means 中找到每个集群的新均值?
在我的 K-means 算法中,我为每个集群列出了一个变量。我怎样才能找到每个集群的新方法?
algorithm - 如何计算每个集群的协方差矩阵,比如 k-means?
我一直在到处搜索,但只发现了如何创建从一个向量到另一个向量的协方差矩阵,例如 cov(xi, xj)。我感到困惑的一件事是,如何从集群中获取协方差矩阵。每个簇有许多向量。如何将它们放入一个协方差矩阵。有什么建议么??
信息:
输入:簇中的向量,Xi = (x0,x1,...,xt), x0 = { 5 1 2 3 4} --> 列向量
(实际上它是一个 MFCC 特征向量,每个向量有 12 个系数,在用 k-means 将它们聚类后,8 个簇,现在我想获得每个簇的协方差矩阵,以将其用作高斯混合模型中的协方差矩阵)
distance - 使用 K-means 算法对文档进行聚类
我如何计算两个文档之间的距离?在数字的 k 均值中,您必须计算两点之间的距离。我知道我可以使用 cosinus 函数。我想对 rss 文档进行聚类。我已经完成了词干提取并从文档中删除了停用词。我已经计算了每个文档中单词的频率。现在我想实现k-mean算法。