问题标签 [k-means]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
14903 浏览

data-mining - 如何在 K 中优化 K - 均值算法

可能重复:
使用 k-means 聚类时如何确定 k?

如果我不了解数据,我如何最初选择 K?

有人可以帮我选择K吗?

谢谢纳文

0 投票
2 回答
6173 浏览

java - 如何计算重构误差?

如何计算重建误差以及在哪里可以找到有关它的信息?(我将在 K-means 算法之后计算我的数据的重建误差)

0 投票
4 回答
7521 浏览

python - python中具有L1距离的kmeans

给定一个 NxM 特征向量作为 numpy 矩阵。是否有任何例程可以使用 L1 距离(曼哈顿距离)通过 Kmeans 算法对其进行聚类?

0 投票
4 回答
18085 浏览

python - 我可以在字符串上使用 K-means 算法吗?

我正在研究一个 python 项目,我在其中研究 RNA 结构进化(表示为字符串,例如:“(((...))”,其中括号表示碱基对)。关键是我有一个理想的结构和一个朝着理想结构发展的人口。我已经实现了一切,但是我想添加一个功能,我可以在其中获得“桶数”,即每一代人口中最具代表性的 k 个结构。

我正在考虑使用 k-means 算法,但我不确定如何将它与字符串一起使用。我找到了 scipy.cluster.vq但我不知道如何在我的情况下使用它。

谢谢!

0 投票
5 回答
18151 浏览

machine-learning - K-Means 算法

可能的重复:
如何在 K 中优化 K - 均值算法
使用 k 均值聚类时如何确定 k?

根据统计测量,我们可以决定 K。如标准偏差、均值、方差等,或者

有没有简单的方法来选择 K-means 算法中的 K?

提前感谢纳文

0 投票
4 回答
6096 浏览

r - 具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵(大约 300.000x100.000 值,超过 100Gb)上执行 k 均值聚类。我想知道我是否可以使用 R 软件来执行此操作或 weka。我的计算机是具有 8Gb 内存和数百 Gb 可用空间的多处理器。

我有足够的空间进行计算,但加载这样的矩阵似乎是 R 的问题(我认为使用 bigmemory 包不会帮助我,如果空间不足,大矩阵会自动使用我的所有 RAM,然后使用我的交换文件)。

所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联)。

谢谢你帮助我。

注意:我使用linux。

0 投票
1 回答
452 浏览

python - 如何在python中打印出数组中的对象?

我正在编写一个对一组数据执行 k-means 聚类的代码。我实际上使用的是 O'Reilly 的一本名为集体智慧的书中的代码。一切正常,但在他的代码中,他使用命令行,我想用记事本++编写所有内容。作为参考,他的台词是

这是我的代码:

0 投票
2 回答
1080 浏览

cluster-analysis - 返回向量空间模型中表示的相似文档的算法

我有一个包含大约 30,000 个文档的 tf-idf 向量的数据库。

我想为给定的文档返回一组类似的文档 - 大约 4 个左右。

我考虑过对数据(具有余弦相似度)实施 K-Means(聚类算法),但由于存在许多不确定性,我不知道它是否是最佳选择:我不确定在我的初始聚类中放入什么,我不知道要创建多少个集群,我担心集群会太不平衡,我不确定结果质量会不会好,等等。

经验丰富的用户的任何建议和帮助将不胜感激。

谢谢,

凯蒂

0 投票
3 回答
6398 浏览

k-means - 自组织地图与 k-means

有谁知道自组织地图(SOM)与 k-means 相比有多好?我相信通常在颜色空间中,例如 RGB,SOM 是将颜色聚集在一起的更好方法,因为视觉上不同颜色之间的颜色空间存在重叠(http://www.ai-junkie.com/ann/som/ som1.html )。是否存在 k-means 优于 SOM 的情况?

谢谢!

0 投票
7 回答
25721 浏览

python - Kmeans 不知道集群的数量?

我试图在一组高维数据点(大约 50 维)上应用 k-means,并且想知道是否有任何实现可以找到最佳集群数量。

我记得在某处读到,算法通常这样做的方式是使集群间距离最大化而集群内距离最小化,但我不记得我在哪里看到的。如果有人可以向我指出任何讨论这个问题的资源,那就太好了。我目前正在将 SciPy 用于 k-means,但任何相关的库也可以。

如果有实现相同或更好算法的替代方法,请告诉我。