问题标签 [k-means]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何计算重构误差?
如何计算重建误差以及在哪里可以找到有关它的信息?(我将在 K-means 算法之后计算我的数据的重建误差)
python - python中具有L1距离的kmeans
给定一个 NxM 特征向量作为 numpy 矩阵。是否有任何例程可以使用 L1 距离(曼哈顿距离)通过 Kmeans 算法对其进行聚类?
python - 我可以在字符串上使用 K-means 算法吗?
我正在研究一个 python 项目,我在其中研究 RNA 结构进化(表示为字符串,例如:“(((...))”,其中括号表示碱基对)。关键是我有一个理想的结构和一个朝着理想结构发展的人口。我已经实现了一切,但是我想添加一个功能,我可以在其中获得“桶数”,即每一代人口中最具代表性的 k 个结构。
我正在考虑使用 k-means 算法,但我不确定如何将它与字符串一起使用。我找到了 scipy.cluster.vq但我不知道如何在我的情况下使用它。
谢谢!
machine-learning - K-Means 算法
根据统计测量,我们可以决定 K。如标准偏差、均值、方差等,或者
有没有简单的方法来选择 K-means 算法中的 K?
提前感谢纳文
r - 具有非常大矩阵的 K 均值
我必须在一个非常大的矩阵(大约 300.000x100.000 值,超过 100Gb)上执行 k 均值聚类。我想知道我是否可以使用 R 软件来执行此操作或 weka。我的计算机是具有 8Gb 内存和数百 Gb 可用空间的多处理器。
我有足够的空间进行计算,但加载这样的矩阵似乎是 R 的问题(我认为使用 bigmemory 包不会帮助我,如果空间不足,大矩阵会自动使用我的所有 RAM,然后使用我的交换文件)。
所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联)。
谢谢你帮助我。
注意:我使用linux。
python - 如何在python中打印出数组中的对象?
我正在编写一个对一组数据执行 k-means 聚类的代码。我实际上使用的是 O'Reilly 的一本名为集体智慧的书中的代码。一切正常,但在他的代码中,他使用命令行,我想用记事本++编写所有内容。作为参考,他的台词是
这是我的代码:
cluster-analysis - 返回向量空间模型中表示的相似文档的算法
我有一个包含大约 30,000 个文档的 tf-idf 向量的数据库。
我想为给定的文档返回一组类似的文档 - 大约 4 个左右。
我考虑过对数据(具有余弦相似度)实施 K-Means(聚类算法),但由于存在许多不确定性,我不知道它是否是最佳选择:我不确定在我的初始聚类中放入什么,我不知道要创建多少个集群,我担心集群会太不平衡,我不确定结果质量会不会好,等等。
经验丰富的用户的任何建议和帮助将不胜感激。
谢谢,
凯蒂
k-means - 自组织地图与 k-means
有谁知道自组织地图(SOM)与 k-means 相比有多好?我相信通常在颜色空间中,例如 RGB,SOM 是将颜色聚集在一起的更好方法,因为视觉上不同颜色之间的颜色空间存在重叠(http://www.ai-junkie.com/ann/som/ som1.html )。是否存在 k-means 优于 SOM 的情况?
谢谢!
python - Kmeans 不知道集群的数量?
我试图在一组高维数据点(大约 50 维)上应用 k-means,并且想知道是否有任何实现可以找到最佳集群数量。
我记得在某处读到,算法通常这样做的方式是使集群间距离最大化而集群内距离最小化,但我不记得我在哪里看到的。如果有人可以向我指出任何讨论这个问题的资源,那就太好了。我目前正在将 SciPy 用于 k-means,但任何相关的库也可以。
如果有实现相同或更好算法的替代方法,请告诉我。