问题标签 [hierarchical-clustering]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1830 浏览

r - 使用 R 中的 sparcl 包进行稀疏聚类

我正在使用sparclWitten 和 Tibshirani 根据他们的论文编写的包:

Witten DM 和 R Tibshirani (2010) 聚类中的特征选择框架。美国统计协会杂志 105(490): 713-726

我查看了函数下的示例HierarchicalSparseCluster

现在我检查dim(sparsehc$dists)并返回 4950 和 50。从模拟设置中,我们知道n=100p=50。此外,根据手册,返回值dists是数据矩阵的(n*n)xp相异矩阵x。显然,行维度不是 n*n,因为它应该是 100*100=10000 而不是 4950。我误解了什么吗?非常感谢你!

0 投票
2 回答
1640 浏览

machine-learning - 电影类型聚类

我是数据挖掘领域的初学者,想对我的电影数据集进行聚类以查找流派组。我的数据集中有 86 部电影的 26 种不同类型。我想使用聚类将我的电影分成几个类型而不是 26 个。因此,例如在运行一些聚类算法之后,我将剩下 4 个聚类或任何最适合我的数据集的小数量。我已经将我的数据集定义如下 M1 { G1,G2,.....G26} M2{G1,G2,.....G26} 其中每个流派 G1,....,G26 都可以保存值0 或 1,0 表示不存在,1 表示存在。现在我的下一步是在上面运行 k-means 集群,我想使用一个好的距离函数,例如 Pearson Correlation Coefficient。

我正在使用 MATLAB 进行实验。我尝试使用 k=3,4,5,6 做 k-Means 我还运行了层次聚类。

我不确定如何确定哪些聚类结果更好。如何检查?由于我是初学者,我不知道如何在 MATLAB 中为二进制特征绘制集群。此外,我不知道如何使用皮尔逊相关系数作为 k-Means 中的距离度量。请帮忙。

0 投票
1 回答
1152 浏览

matlab - 在进行层次聚类和生成树状图时,如何在 MATLAB 中显示单独的断开连接的树?

我正在使用MATLAB,并且我有一个邻接矩阵:

这不是完全连接的。节点{1,2,5}是连接的,并且{3,4,6}是连接的(边是有向的)。

我想在单个图上的树状图中看到单独的簇。由于没有从一个集群到下一个集群的路径,我希望看到每个集群具有不同根的单独树。我正在使用命令:

分层聚类建议使用这些命令。并附上结果:imageDendrogram。除了标签没有意​​义之外,整个树是连接的,我连接弄清楚如何有几个断开连接的树来反映数据的断开连接性质。我想避免使用多个图,因为我希望使用可能具有许多不相交集群的较大数据集。

0 投票
1 回答
2090 浏览

python - 如何将我的原始数据与集群数据关联起来

我有一个距离矩阵表示成对元素的距离矩阵,例如

我输入数组,如聚类

我的fcluster输出类似于 [ 4 10 12 1 5 13 2 11 1 7 8 3 14 6 10 16 9 15 1 7] 来自其他人的先前海报

我了解输出 T[i] 仅显示集群中元素的数量......我如何将原始元素 A、B、C、D、E..... 元素与集群结果和树状图联系起来?并将它们正确地放入我的数字中。

0 投票
0 回答
248 浏览

python - 如何在python中链接层次结构树状图的刻度?

我有一个层次聚类的图,x 刻度是聚类后的观察指数。如何添加标签,以便我可以将链接到索引的原始观察名称链接到索引编号列表(例如 [11, 6 ,18, 3 5, 12....])。对于直方图,我可以通过字符串列表分配标签,因为索引始终为 1,2,3...4,但对于聚类后的绘图,观察索引会改变......我可以使用任何对象或函数利用?

0 投票
2 回答
1775 浏览

r - R FactoMineR:返回集群成员

我已经制作了一个HCPC对象,并希望返回一个观察列表以及它们属于哪些集群。我找不到执行此操作的命令;有人知道吗?

仅供参考,这是我的工作:


编辑:一个可重现的例子:

0 投票
2 回答
618 浏览

parameters - 没有输入参数的聚类数据

这更像是一个理论问题:

你知道任何不需要任何输入参数的聚类算法(平面或分层),比如聚类的数量或邻域的大小等?换句话说,您只需将数据作为输入提供给算法,然后将集群作为输出。

如果有关文件/文件的建议,我会很高兴。

0 投票
2 回答
9186 浏览

python - Scipy 树状图叶标签颜色

是否可以为 Scipy 的树状图的叶子标签分配颜色?我无法从文档中弄清楚。这是我到目前为止所尝试的:

谢谢。

0 投票
1 回答
651 浏览

data-mining - 了解分区网络的分区密度

我正在实施链接社区社区检测算法。我无法理解论文中描述的分区密度的解释

这里只是定义分区密度的部分: 在此处输入图像描述

我找不到链路密度的定义(等式 2)和分区密度的定义(等式 3)之间的联系。因此,我不明白为什么分区密度是这样定义的。而且我特别看不到(等式3)如何计算(等式2)的平均值 - 如果有平均值,我希望分区数(c)低于水平线(在除数中)

我无法搜索任何其他分区密度的定义。

任何可以对此有所了解的人将不胜感激。

0 投票
1 回答
179 浏览

email - 如何将邮件主题行聚集到邮件线程?

如果我只有邮件的主题行(没有其他标题),是否有一个好的算法(或包)将它们聚集成一组“相关消息”?

带有主题的邮件

  • Our travel plans

可能与

  • Re: Our travel plans
  • Re: Re: Our travel plans.

到目前为止还不错,但也有

  • AW: Our travel plans
  • Fwd: Our travel plans
  • Our travel plans (Forward)

我想将它们全部聚集到一个线程中。plans当然,主题为,等的邮件Re: Our meeting不应出现在该线程中。我可以很好地实现分层结果——实际上,我有点喜欢那样,因为我希望具有相似内容的邮件有可能彼此“更接近”。

所以,我有很多想法:后缀匹配、前缀树、Levensthein 距离、Q-Gram 配置文件——可能太多了。因此我问自己:“有人已经这样做了吗?”