问题标签 [cluster-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - MATLAB:自组织图 (SOM) 聚类
我正在尝试根据身体部位之间的角度对一些图像进行聚类。
从每张图像中提取的特征是:
因此输入数据是一个大小为 1057x10 的矩阵,其中 1057 代表图像数量,10 代表身体部位与躯干的角度。类似地,测试集是 821x10 矩阵。
我希望输入数据中的所有行都用 88 个集群进行聚类。那我就用这些集群来查找TestData属于哪些集群呢?
在之前的工作中,我使用了非常简单的 K-Means 聚类。我们只是要求 K-Means 将数据聚类到 88 个聚类中。并实现另一种方法,计算测试数据中每一行与每个集群中心之间的距离,然后选择最小值。这是相应输入数据行的集群。
我有两个问题:
是否可以在 MATLAB 中使用SOM来做到这一点?AFAIK SOM 用于视觉聚类。但是我需要知道每个集群的实际类,以便以后可以通过计算它属于哪个集群来标记我的测试数据。
你有更好的解决方案吗?
algorithm - 确定 ak 最近邻的最佳 k
我需要对一组二维数据进行一些聚类分析(我可能会在此过程中添加额外的维度)。
分析本身将形成输入可视化的数据的一部分,而不是输入到另一个过程(例如径向基函数网络)。
为此,我想找到一组主要“看起来正确”的集群,而不是阐明一些隐藏的模式。
我的直觉是,k-means将是一个很好的起点,但是找到合适数量的集群来运行算法是有问题的。
我要解决的问题是:
如何确定 k的“最佳”值, 以使形成的集群稳定且可视觉验证?
问题:
- 假设这不是 NP 完全的,那么找到一个好的k的时间复杂度是多少。(可能以运行 k-means 算法的次数报告)。
- k-means 是这类问题的一个很好的起点吗?如果是这样,您会推荐哪些其他方法。一个由轶事/经验支持的具体例子是 maxi-bon。
- 您会推荐哪些捷径/近似值来提高性能。
cluster-analysis - matlab中的模糊c表示
我正在使用内置的模糊 c 均值算法在 matlab 中对一些数据进行聚类,该算法返回 C 聚类中心,U 模糊分区矩阵。所以我知道 C 中的集群中心是什么,但我如何才能确定每个数据点属于哪个集群中心?使用模糊分区矩阵或其他方式?
python - 在 Python 中聚类文本
我需要对一些文本文档进行聚类,并且一直在研究各种选项。看起来 LingPipe 可以在没有事先转换(到向量空间等)的情况下聚集纯文本,但它是我见过的唯一明确声称可以处理字符串的工具。
有没有可以直接聚类文本的 Python 工具?如果没有,处理这个问题的最佳方法是什么?
cluster-analysis - 使用 k-means 聚类时如何确定 k?
我一直在研究k-means clustering,不清楚的一件事是你如何选择 k 的值。这只是一个反复试验的问题,还是有更多的问题?
artificial-intelligence - 使用 AI 技术逆向工程文件格式
这是扩展问题:帮助对二进制文件格式进行逆向工程的工具
是否有任何公开可用的工具使用集群和/或数据挖掘技术对文件格式进行逆向工程?
例如,使用该工具,您将拥有一组具有相同格式的文件,并且该工具的输出将是通用结构?
indexing - mahout lucene 文档聚类howto?
我正在阅读我可以从 lucene 索引创建 mahout 向量,该索引可用于应用 mahout 聚类算法。 http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text
我想在我的 Lucene 索引中的文档中应用 K-means 聚类算法,但目前尚不清楚如何应用此算法(或层次聚类)来提取具有这些文档的有意义的聚类。
在这个页面http://cwiki.apache.org/confluence/display/MAHOUT/k-Means 说该算法接受两个输入目录:一个用于数据点,一个用于初始集群。我的数据点是文件吗?我如何“声明”这些是我的文档(或它们的向量),只需将它们拿走并进行聚类?
提前为我糟糕的语法道歉
谢谢
matlab - 在matlab中可视化地将数据分成两类
我有两个数据集群,每个集群都有 x,y(坐标)和一个值来知道它的类型(1 class1,2 class 2)。我已经绘制了这些数据,但我想用边界(视觉上)分割这些类。做这种事情的功能是什么。我尝试了轮廓,但没有帮助!
c++ - OpenCV 的聚类函数 cvKMeans2() - 什么是数组中的聚类中心类型?
我正在使用 OpenCV 库中的函数 cvKMeans2() 进行聚类。它具有可选参数:
centers -集群中心的可选输出数组
相同的参数也在函数 kmeans() 中。
我想知道有关集群的信息。但是我还没有找到数组中那个簇中心的类型,所以我无法得到它。
感谢您的任何建议!