问题标签 [hierarchical-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中的层次聚类默认行为?
当您在 R 中执行以下聚类时:
你会得到一棵树,其节点的分支长度不相等。在普通的层次聚类(upgma)中,所有的长度都必须相等。有人可以解释一下 hclust 的默认行为,以及它如何产生不相等的长度吗?谢谢。
postgresql - postgresql:层次树的实现
我一直在努力解决 1000 多个标记的标记聚类问题(应该放在谷歌地图上)。我不太热衷于使用所有标记渲染大型 JSON 结构,也不喜欢使用 PostGIS 进行一些复杂的服务器“地理”计算。
我想出的解决方案是将世界地图划分为某种分层空间树,比如说四叉树,其中我的数据库中的每个点都将在该树中分配有“坐标”。这些坐标是具有 的字符串on position_x index_of_tile in tier_x
,例如'031232320012'。字符串的长度取决于将为前端地图启用的缩放级别数。基本上,如果用户移动或缩放地图,我将使用当前缩放级别和视口坐标作为参数启动 Ajax GET 请求。然后在后端我计划构建一个应该指向“给定缩放级别的视口”的字符串,例如'02113',我想在树坐标列中找到所有具有此前缀('02113')的点.
编辑:我还需要快速 GROUP BY,例如SELECT count(*) from points GROUP BY left(coordinates, 5);
我的问题是如何尽可能快地执行这些操作?我的数据库是 PostgreSQL。
r - 为层次聚类准备分类数据
我想使用 R 对数据进行层次聚类,如下所示:
这应该意味着 L2 与 L1 和 L3 共享特征 W1,而特征 W2 存在于 L1 和 L3 中,但具有不同的值,并且在 L2 中缺失。(编辑L 是语言,W 是这些语言中的词干,值(p、r 等)描述了这些词如何在特定语言中派生出来。我相信一个词在不同的语言可能暗示共同的起源。当它丢失时,不清楚:它可能意味着什么,或者我的来源可能不完整,但我想我必须谨慎地假设第一个选项。最终目标是根据什么对语言进行分类茎存在于它们中,以及它们的行为方式。结束编辑)
您能否解释一下我如何转换这些数据以便能够对它们进行分类,并建议我应该使用什么相似度指数?
python - 基于距离矩阵的词聚类
我的目标是根据它们与文本文档语料库的相似程度来对单词进行聚类。我计算了每对单词之间的 Jaccard 相似度。换句话说,我有一个稀疏距离矩阵可用。谁能指出任何将距离矩阵作为输入的聚类算法(可能还有它在 Python 中的库)?我事先也不知道集群的数量。我只想对这些单词进行聚类并获得哪些单词被聚类在一起。
cluster-analysis - Cluster 3.0 中的层次聚类分析
我是这个网站的新手,也是聚类分析的新手,所以如果我违反约定,我深表歉意。
我一直在使用 Cluster 3.0 执行具有欧几里得距离和平均链接的层次聚类分析。Cluster 3.0 输出一个 .gtr 文件,其中包含一个连接基因的节点及其相似度得分。我注意到 .gtr 文件中的第一行总是将一个基因与另一个基因联系起来,然后是相似度得分。但是,我如何重现这个相似度分数?
在我的数据集中,我有 8 个基因并创建一个距离矩阵,其中 d_{ij} 包含基因 i 和基因 j 之间的欧几里得距离。然后我通过将每个元素除以矩阵中的最大值来标准化矩阵。为了得到相似度矩阵,我从 1 中减去所有元素。但是,我的结果没有使用链接类型,并且与输出相似度得分不同。
我主要对链接如何影响第一个节点的相似性(两个最接近的基因的连接)以及如何计算相似性分数感到困惑。
谢谢!
performance - 层次聚类和非层次聚类的区别?
我想看看两者的性能是否可以根据它们所处理的目标函数进行比较?
分层:单链接、完全链接和平均链接算法
非分层:模糊 C 均值和 K 均值
python - 如何获得由 scipy.cluster.hierarchy 制作的树状图的子树
我对这个模块(scipy.cluster.hierarchy)感到困惑......并且仍然有一些!
例如,我们有以下树状图:
我的问题是如何以一种很好的格式(比如 SIF 格式)提取彩色子树(每个子树代表一个簇)?现在获取上图的代码是:
所以现在, 的输出fcluster()
给出了节点的聚类(通过它们的 id),这里leaders()
描述的应该返回 2 个数组:
第一个包含 Z 生成的集群的领导节点,在这里我们可以看到我们有 5 个集群,以及在图中
第二个是这些集群的 id
所以如果这个领导者()返回resp。L 和 M :L[2]=182
和M[2]=1
,然后集群 1 由节点 id 182 引导,该节点 id 不存在于观察集 X 中,文档说“......那么它对应于非单例集群”。但我无法得到它...
此外,我通过 将 Z 转换为树sch.to_tree(Z)
,这将返回一个易于使用的树对象,我想将其可视化,但是我应该使用哪个工具作为图形平台来操作这些树对象作为输入?
r - 如何显示每个集群中的集群分配
有没有办法在R中的cutree步骤之后显示集群中的成员?例如:
我得到这样的东西:
我想以更直接的方式查看/打印它,例如:
我该怎么做?谢谢!
matlab - 保持数据点顺序的凝聚聚类算法?
我需要一个层次聚类实现(最好在 matlab 中)来保留我的数据点的顺序。例如,我不希望它输出这样的东西
我很确定有一个更好的术语。我只需要它以与输入相同的顺序组合彼此靠近的集群。
r - 如何修复 r 中的 kmeans 错误:“聚类中心多于不同的数据点”
当我运行 kmeans 算法时,我收到此错误:
如何修复此错误,它是什么意思?我认为我的数据点是不同的?
这是我的文件和我用来生成 kmeans 的 r 代码: