问题标签 [k-means]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3245 问题

0 投票

2 回答

14903 浏览

data-mining - 如何在 K 中优化 K - 均值算法

可能重复：
使用 k-means 聚类时如何确定 k？

如果我不了解数据，我如何最初选择 K？

有人可以帮我选择K吗？

谢谢纳文

data-mining k-means

2011-06-02T09:28:46.090

0 投票

2 回答

6173 浏览

java - 如何计算重构误差？

如何计算重建误差以及在哪里可以找到有关它的信息？（我将在 K-means 算法之后计算我的数据的重建误差）

2011-06-02T12:55:27.443

0 投票

4 回答

7521 浏览

python - python中具有L1距离的kmeans

给定一个 NxM 特征向量作为 numpy 矩阵。是否有任何例程可以使用 L1 距离（曼哈顿距离）通过 Kmeans 算法对其进行聚类？

python numpy k-means

2011-06-06T14:42:37.977

0 投票

4 回答

18085 浏览

python - 我可以在字符串上使用 K-means 算法吗？

我正在研究一个 python 项目，我在其中研究 RNA 结构进化（表示为字符串，例如：“（（（...））”，其中括号表示碱基对）。关键是我有一个理想的结构和一个朝着理想结构发展的人口。我已经实现了一切，但是我想添加一个功能，我可以在其中获得“桶数”，即每一代人口中最具代表性的 k 个结构。

我正在考虑使用 k-means 算法，但我不确定如何将它与字符串一起使用。我找到了 scipy.cluster.vq但我不知道如何在我的情况下使用它。

谢谢！

python algorithm cluster-analysis bioinformatics k-means

2011-06-09T13:36:24.160

0 投票

5 回答

18151 浏览

machine-learning - K-Means 算法

可能的重复：
如何在 K 中优化 K - 均值算法
 使用 k 均值聚类时如何确定 k？

根据统计测量，我们可以决定 K。如标准偏差、均值、方差等，或者

有没有简单的方法来选择 K-means 算法中的 K？

提前感谢纳文

machine-learning cluster-analysis data-mining k-means

2011-06-15T05:42:06.350

0 投票

4 回答

6096 浏览

r - 具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵（大约 300.000x100.000 值，超过 100Gb）上执行 k 均值聚类。我想知道我是否可以使用 R 软件来执行此操作或 weka。我的计算机是具有 8Gb 内存和数百 Gb 可用空间的多处理器。

我有足够的空间进行计算，但加载这样的矩阵似乎是 R 的问题（我认为使用 bigmemory 包不会帮助我，如果空间不足，大矩阵会自动使用我的所有 RAM，然后使用我的交换文件）。

所以我的问题是：我应该使用什么软件（最终与其他一些软件包或自定义设置相关联）。

谢谢你帮助我。

注意：我使用linux。

r cluster-analysis weka k-means mahout

2011-06-16T13:08:26.697

0 投票

1 回答

452 浏览

python - 如何在python中打印出数组中的对象？

我正在编写一个对一组数据执行 k-means 聚类的代码。我实际上使用的是 O'Reilly 的一本名为集体智慧的书中的代码。一切正常，但在他的代码中，他使用命令行，我想用记事本++编写所有内容。作为参考，他的台词是

这是我的代码：

python arrays printing cluster-analysis k-means

2011-06-21T14:08:30.120

0 投票

2 回答

1080 浏览

cluster-analysis - 返回向量空间模型中表示的相似文档的算法

我有一个包含大约 30,000 个文档的 tf-idf 向量的数据库。

我想为给定的文档返回一组类似的文档 - 大约 4 个左右。

我考虑过对数据（具有余弦相似度）实施 K-Means（聚类算法），但由于存在许多不确定性，我不知道它是否是最佳选择：我不确定在我的初始聚类中放入什么，我不知道要创建多少个集群，我担心集群会太不平衡，我不确定结果质量会不会好，等等。

经验丰富的用户的任何建议和帮助将不胜感激。

谢谢，

凯蒂

cluster-analysis document k-means tf-idf

2011-06-21T15:37:01.543

0 投票

3 回答

6398 浏览

k-means - 自组织地图与 k-means

有谁知道自组织地图（SOM）与 k-means 相比有多好？我相信通常在颜色空间中，例如 RGB，SOM 是将颜色聚集在一起的更好方法，因为视觉上不同颜色之间的颜色空间存在重叠（http://www.ai-junkie.com/ann/som/ som1.html )。是否存在 k-means 优于 SOM 的情况？

谢谢！

k-means self-organizing-maps

2011-07-06T16:57:57.043

0 投票

7 回答

25721 浏览

python - Kmeans 不知道集群的数量？

我试图在一组高维数据点（大约 50 维）上应用 k-means，并且想知道是否有任何实现可以找到最佳集群数量。

我记得在某处读到，算法通常这样做的方式是使集群间距离最大化而集群内距离最小化，但我不记得我在哪里看到的。如果有人可以向我指出任何讨论这个问题的资源，那就太好了。我目前正在将 SciPy 用于 k-means，但任何相关的库也可以。

如果有实现相同或更好算法的替代方法，请告诉我。

python machine-learning data-mining k-means

2011-07-07T18:58:38.903

1 2 3 4 5 6 7 8 9 10

问题标签 [k-means]

Reference