问题标签 [hierarchical-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何更改 R 图的标签大小
我正在根据我的数据制作一个聚类图。我已经完成了整个情节,但我的标签文本太大,无法正确阅读情节。任何人都知道如何使标签更小。
我正在使用包“sparcl”,我的功能是:
如您所见,分支文本太大,它们相互重叠。我希望叶子的文字小 25%。我已经查看了 Sparcl 包的文档,但这似乎不起作用。
database - 反极聚类
我做了一个照片马赛克脚本(PHP)。该脚本有一张图片,并将其更改为小图片的照片组合。远看像实物,走近一看全是小图。我取一个固定像素数的正方形并确定该正方形的平均颜色。然后我将它与包含数千张图片的平均颜色的数据库进行比较。我用所有可用图像确定颜色距离。但是要完全运行这个脚本需要几分钟。
瓶颈是将最佳图片与主要图片的一部分进行匹配。我一直在网上搜索如何减少这种情况,结果出现了一个交叉“Antipole Clustering”。当然,我试图自己找到一些有关如何使用此方法的信息,但我似乎无法弄清楚该怎么做。
有两个步骤。1. 数据库获取和 2. Photomosaic 创建。让我们从第一步开始,一切都清楚了。也许我自己理解第 2 步。
步骤1:
将数据库的每个图像划分为 9 个相等的矩形,以 3x3 网格排列
计算每个矩形的 RGB 平均值
构造一个由 27 个分量组成的向量 x(每个矩形三个 RGB 分量)
x 是数据结构中图像的特征向量
好吧,第 1 点和第 2 点很简单,但在第 3 点我应该怎么做。如何从 27 个分量(9 * R 均值,G 均值,B 均值)中组成向量 X。
当我成功组成向量时,下一步我应该如何处理这个向量。
彼得
hierarchical-clustering - GRGPF聚类算法的实现
我正在寻找实现 Ganti et.al 中的聚类算法的源代码。“在任意度量空间中聚类大型数据集。” 特别是,我有一个要聚类的大数据问题(所以这是一个单程聚类问题),并且我在空间上没有二元运算符(因此在元素之间查找“平均”元素不是一种选择)。
我不知道语言(尽管我更喜欢简单的 I/O 机制)。
有什么想法吗?
r - 如何使用 R 根据子项的标签标记树状图中的每个节点
我在 R 中有一个树状图,其中每片叶子都有一个值。我喜欢通过对其子节点的值求和来定义每个节点的值。我熟悉 dendrapply,但是我不知道如何在函数中访问节点的子节点以及如何递归地编写函数。
这是开始的代码:
r - pvclust 上 hclust 生成的树状图
我有兴趣使用 pvclust R 包来确定我使用 R 中的常规层次聚类 hclust 函数生成的集群的重要性。我有一个数据矩阵,其中包含约 8000 个基因及其在 4 个发育时间点的表达值。下面的代码显示了我用来对数据执行常规层次聚类的方法。我的第一个问题是:有没有办法获取 hr.dendrogram 图并将其应用于 pvclust?其次,pvclust 似乎对列进行了聚类,并且它似乎更适合跨列而不是像我想要的行进行比较的数据(我已经看到了许多使用 pvclust 对样本而不是基因进行聚类的例子)。有没有人以与我想做的类似的方式使用 pvclust?我的常规层次聚类的简单代码如下:
我很感激这方面的任何帮助!
python - python中是否有任何采用距离矩阵的良好层次聚类包?
我有一个由成对的 levenshtein 距离组成的距离矩阵。我正在使用 scikits-learn。但是层次聚类算法不以距离矩阵作为聚类的输入。所以我必须寻找一个可以做到这一点的新包。
是否有任何用于层次聚类的快速且经过良好测试的软件包?
cluster-analysis - 如何将文本文件转换为 .arff 格式(weka)
请告诉我如何将文本文件转换为 .arff 格式(weka),因为我想对 1000 txt 文件进行数据聚类。
问候
r - 引导分层/多级数据(重采样集群)
我正在生成一个脚本,用于从cats
数据集(来自-MASS-
包)创建引导样本。
按照戴维森和欣克利的教科书 [1],我运行了一个简单的线性回归,并采用了一种基本的非参数程序来从独立同分布观察中引导,即对重采样。
原始样本的形式为:
通过一个单变量线性模型,我们想通过他们的大脑重量来解释猫的壁炉重量。
代码是:
现在假设存在一个聚类变量cluster = 1, 2,..., 24
(例如,每只猫都属于给定的垃圾)。为简单起见,假设数据是平衡的:每个集群有 6 个观察值。因此,24 窝中的每一窝都由 6 只猫(即n_cluster = 6
和n = 144
)组成。
可以通过以下方式创建假cluster
变量:
我有两个相关的问题:
如何根据(集群)数据集结构模拟样本?即如何在集群级别进行重采样?我想对具有替换的集群进行采样,并将每个选定集群中的观察设置为原始数据集中的观察值(即在替换集群的情况下进行采样,而不是替换每个集群中的观察)。
这是戴维森(第 100 页)提出的策略。假设我们抽取B = 100
样本。它们中的每一个都应该由 24 个可能经常出现的集群(例如cluster = 3, 3, 1, 4, 12, 11, 12, 5, 6, 8, 17, 19, 10, 9, 7, 7, 16, 18, 24, 23, 11, 15, 20, 1
)组成,并且每个集群应该包含与原始数据集相同的 6 个观察值。如何做到这一点R
?(有或没有-boot-
包裹。)你有其他建议吗?
第二个问题涉及初始回归模型。假设我采用固定效应模型,具有集群级截距。它是否改变了采用的重采样程序?
[1] 戴维森,AC,欣克利,DV(1997 年)。引导方法及其应用。剑桥大学出版社。
python - 使用python的微阵列层次聚类和PCA
我正在尝试使用微阵列列的层次聚类(来自单个微阵列复制的结果)和 PCA 来分析微阵列数据。
我是 python 新手。我有 python 2.7.3、biopyhton、numpy、matplotlib 和 networkx。
我可以使用 python 或 biopython 中的函数(类似于 MATLAB 的 clustergram 和 mapcaplot)来执行此操作吗?
java - 为什么层次聚类看不到数值属性?
我在玩 Java、Weka 和 IP 地址。现在我正在尝试使用数据集进行层次聚类:源和目标 IPv4(转换为十进制)和协议 - 均来自 Wireshark 日志。
我将地址和协议保存在列表中,并以手动方式构建数据集
当我从数据中打印一些随机实例时,我可以看到一切正常。但是在聚类的输出中只有关于协议的信息。例如(这只是一小部分)。
集群 1 ((MSNMS:0,MSNMS:0):0,MSNMS:0)
带有调试选项的输出类似于
合并 0 4 0.0 0.0
合并 0 5 0.0 0.0
合并 1 7 0.0 0.0
我做错了什么还是......像这样聚类数据集的整个想法只是愚蠢的?