问题标签 [hierarchical-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 scipy 中修剪树状图(分层聚类)
我有一个包含大约 5000 个条目的距离矩阵,并使用 scipy 的层次聚类方法对矩阵进行聚类。我用于此的代码是以下代码段:
由于所有这些数据的树状图会变得相当密集,因此我使用 truncate_mode 对其进行修剪。所有这些都有效,但我想知道如何找出原始 5000 个条目中哪些属于树状图中的特定分支。
我尝试使用
获取叶子列表,但这使用链接输出作为数据,虽然我可以看到修剪后的树状图和叶子列表之间的对应关系,但手动将原始条目映射到树状图变得有点麻烦。
总结一下:有没有办法列出距离矩阵中属于修剪树状图中分支的所有原始条目?或者还有其他我不知道的方法。
谢谢
python - 将 scipy 树状图输出到 TreeView 文件
我已经使用 pylab 和 scipy 编写了一个 python 脚本,以根据这篇文章从表达式矩阵中输出层次聚类热图和树状图: 在 python 中的数据矩阵上绘制层次聚类的结果
现在我想将我的数组和基因(列和行)树状图导出到文本文件中,这样程序 TreeView 也可以查看这些数据(例如,cdt、gtr、atr 文件)。这个事情谁有经验?
谢谢
java - WEKA HierarchicalClusterer 类总是返回 2 个集群
这是我的代码:
现在,即使我也修改了 distancefucntion 方法,生成的簇数的输出始终为 2。如果是哪个集群,我怎么知道哪个实例?当我取消注释上面为获取实例的分布而编写的代码时,我得到一个 ArrayOutOfBound 异常。
但总的来说,谁能解释一下 WEKA 在这里是如何分层完成聚类的?
这是我的数据集,长度为 10,维度为 2:
python - 如何在 scipy-cluster 的每个集群中选择离中心最近的代表?
所以基本上,我使用 Python 模块scipy-cluster来绘制大量数据点。如果给定阈值或我想要的代表数量,是否有方法/功能可以给出每个集群的代表?理想情况下,每个代表必须与它所属的集群中心的距离最近。
编辑:我正在寻找每个集群中最接近质心的数据点。
r - 从 R 中的 hclust 中提取文本中的树结构
在需求预测项目的范围内,我想确定对彼此相似的时间序列进行分组的最佳方法,以便我可以应用自上而下的预测算法。目前,我的关键问题是确定什么是适当的组以及这些组的适当层次结构是什么。在做了一些阅读之后,我相信动态时间扭曲可能会有所帮助。为了对此进行测试,我创建了一个小测试用例,但我面临一个问题,那就是我如何提取层次结构,例如文本树或类似的东西。我希望你们中的一个人能够进一步帮助我。
我创建了以下案例来展示我的目标。
不知何故,我想以文本形式获取集群的名称和成员,以便我可以继续使用它。有人有想法吗?
谢谢!
python - 距离矩阵的并行构造
我在大量多维向量上进行层次凝聚聚类,我注意到最大的瓶颈是距离矩阵的构建。此任务的一个简单实现如下(在 Python 中):
我想知道哪个是为这个例程添加一些并行性的最佳方法。一种简单的方法是中断外循环并将其分配给多个作业,例如,如果您有 10 个处理器,则为不同的范围创建 10 个不同的作业,i
然后将结果连接起来。然而,这种“水平”解决方案似乎不太正确。此任务是否有任何其他并行算法(或现有库)?任何帮助将不胜感激。
java - R中用于凝聚聚类的自定义距离度量
我们是否可以在 R 中为凝聚聚类定义自定义距离函数?另外,我想防止在不满足某个条件时合并两个集群。这在R中可能吗?
另外,当 R 放在 Hadoop 上时,是否有可能做到这一切?
machine-learning - 是否可以将支持向量机与凝聚聚类器结合使用?
是否可以以某种方式将支持向量机与聚类算法结合使用?什么是他们都需要相互通信的示例用例?
r - r中的集群表示树状图替代
我知道树状图很受欢迎。但是,如果有大量的观察和类别,则很难遵循。但是有时我觉得应该有更好的方法来呈现同样的东西。我有一个想法,但不知道如何实现它。
考虑以下树状图。
可以像散点图一样绘制它。其中两点之间的距离用线绘制,而单独的簇(假定阈值)是彩色的,圆的大小由某个变量的值决定。
r - 聚类分析(层次化)如何知道组信息?
我在聚类分析(分层聚类)中遇到了关于组的问题。例如,这是Iris 数据集的完整链接的树状图。
我使用后
这是输出:
我在一个统计网站上读到,数据中的对象 1 始终属于组/集群 1。从上面的输出中,我们知道setosa在组 1中。然后,我将如何了解其他两个物种。他们如何属于第 2 组或第 3 组。它是如何发生的。也许我需要知道一个计算?