问题标签 [k-means]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
artificial-intelligence - 模糊 K 模式聚类如何找到聚类中心
我试图理解模糊 k 模式算法(主要看第 3 页)以实现它。我被困在他们所说的集群中心的计算上,如图所示
我需要知道以下是真是假,请纠正我
为了获得集群的中心,我们需要:
- 对于变量中的每个类别,计算该类别所属的所有点的成员值总和到该集群
- 将获得的最高值设置为中心的类别
algorithm - 劳埃德算法
是否可以运行劳埃德算法以在多项式时间内找到一维的 k 均值?
我知道 k-means 问题对于任何一维以上的问题都是 NP-hard 的。任何如果你有一个固定的维度,劳埃德的算法将在多项式时间内运行,对吧?
r - 对一维数据进行最佳聚类?
有没有人有一篇论文解释了Ckmeans.1d.dp算法是如何工作的?
或者:在一维中进行 k-means 聚类的最佳方法是什么?
statistics - 带椭球的 k 均值
我在 R^3 中有 n 个点,我想用 k 个椭圆体或圆柱体来覆盖(我真的不在乎;以更容易的为准)。我想大约最小化卷的并集。假设 n 是数万,k 是少数。开发时间(即简单性)比运行时间更重要。
显然,我可以运行 k-means 并为我的椭球使用完美的球。或者我可以运行 k-means,然后使用每个簇的最小封闭椭球而不是用球覆盖,尽管在最坏的情况下也好不到哪里去。我见过用 k-means 处理各向异性的讨论,但我看到的链接似乎认为我手头有张量;我不知道,我只知道数据将是椭球体的联合。有什么建议么?
[编辑:有几票赞成混合多元高斯,这似乎是一个可行的尝试。启动一个 EM 代码来做到这一点不会最小化联合的体积,但当然 k-means 也不会最小化体积。]
opencv - 是否可以在 OpenCV 的 cvKmeans2 中看到当前的迭代次数?
我正在尝试使用 OpenCV 2.1 中的 cvKmeans2 函数将一个非常大的数据集 - 3030764x162 聚类为 4000 个集群。我想看看 K-means 算法当前处于哪个迭代中(类似于 Matlab 中显示的内容),但我没有看到任何指向我如何做到这一点的文档。
看到一个空白屏幕并且不知道代码何时终止,这有点令人沮丧!
谢谢你。
matlab - K-means 编码实现
我正在寻找一种 k-means 的实现,它也会找出每行数据所属的位置。
我找到了其他链接,例如Matlab:K-means clustering 但它们没有帮助。
所以我正在寻找这样的东西。如果我的数据如下
我想知道第 1 行属于集群 A,第 2 行属于集群 B,依此类推。
有谁知道Matlab是否可以告诉我,如果可以,怎么做?如果没有,是否有人可以链接到一些能够做到这一点的代码?
cluster-analysis - 文档聚类基础
所以,我一直在思考这些概念一段时间,我的理解是非常基础的。信息检索似乎是一个在野外很少涉及的话题......
我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后我是否继续为每个文档创建字数向量?如何使用 K-means 聚类之类的方法比较这些文档?
r - 包 tm。kmeans的问题
我有一个关于 R 中 k-means 聚类的问题。实际上我正在根据这篇文章做所有事情。一切都基于 tm 包中的示例,因此不需要导入数据。acq 包含 50 个文档和粗略的 20 个文档。
我实际上想创建交叉协议矩阵。但是这篇文章是在 2008 年写的,从那以后发生了很多变化。Data 功能仅在 RSurvey 包中可用,但我有点怀疑它是否相同。我认为主要问题是 TermDocumentMatrix 是 S4 类,现在是 S3。我知道这样做可能只有文字。但我想这样做,因为在 TDM 中,可以删除停用词、punct 等以获得更好的结果。因此,如果有人有任何很棒的解决方案。
machine-learning - 选择适当的相似性度量并评估 k-means 聚类模型的有效性
我已经实现了 k-means 聚类来确定 300 个对象中的聚类。我的每个对象都有大约 30 个维度。距离是使用欧几里得度量计算的。
我需要知道
- 我如何确定我的算法是否正常工作?我不能有一个图表来说明我的算法的正确性。
- 欧几里得距离是计算距离的正确方法吗?如果我有 100 维而不是 30 怎么办?
python - 使用 k-Means 聚类算法预测值
我在搞机器学习,我用 Python 编写了一个 K 均值算法实现。它采用二维数据并将它们组织成集群。每个数据点还具有一个 0 或 1 的类值。
该算法让我感到困惑的是,我如何使用它来预测另一组没有 0 或 1 而是未知的二维数据的一些值。对于每个集群,我应该将其中的点平均为 0 还是 1,如果未知点最接近该集群,那么该未知点取平均值?还是有更聪明的方法?
干杯!