问题标签 [hierarchical-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 R 中的 sparcl 包进行稀疏聚类
我正在使用sparcl
Witten 和 Tibshirani 根据他们的论文编写的包:
Witten DM 和 R Tibshirani (2010) 聚类中的特征选择框架。美国统计协会杂志 105(490): 713-726
我查看了函数下的示例HierarchicalSparseCluster
:
现在我检查dim(sparsehc$dists)
并返回 4950 和 50。从模拟设置中,我们知道n=100
和p=50
。此外,根据手册,返回值dists
是数据矩阵的(n*n)xp相异矩阵x
。显然,行维度不是 n*n,因为它应该是 100*100=10000 而不是 4950。我误解了什么吗?非常感谢你!
machine-learning - 电影类型聚类
我是数据挖掘领域的初学者,想对我的电影数据集进行聚类以查找流派组。我的数据集中有 86 部电影的 26 种不同类型。我想使用聚类将我的电影分成几个类型而不是 26 个。因此,例如在运行一些聚类算法之后,我将剩下 4 个聚类或任何最适合我的数据集的小数量。我已经将我的数据集定义如下 M1 { G1,G2,.....G26} M2{G1,G2,.....G26} 其中每个流派 G1,....,G26 都可以保存值0 或 1,0 表示不存在,1 表示存在。现在我的下一步是在上面运行 k-means 集群,我想使用一个好的距离函数,例如 Pearson Correlation Coefficient。
我正在使用 MATLAB 进行实验。我尝试使用 k=3,4,5,6 做 k-Means 我还运行了层次聚类。
我不确定如何确定哪些聚类结果更好。如何检查?由于我是初学者,我不知道如何在 MATLAB 中为二进制特征绘制集群。此外,我不知道如何使用皮尔逊相关系数作为 k-Means 中的距离度量。请帮忙。
matlab - 在进行层次聚类和生成树状图时,如何在 MATLAB 中显示单独的断开连接的树?
我正在使用MATLAB
,并且我有一个邻接矩阵:
这不是完全连接的。节点{1,2,5}
是连接的,并且{3,4,6}
是连接的(边是有向的)。
我想在单个图上的树状图中看到单独的簇。由于没有从一个集群到下一个集群的路径,我希望看到每个集群具有不同根的单独树。我正在使用命令:
分层聚类建议使用这些命令。并附上结果:imageDendrogram。除了标签没有意义之外,整个树是连接的,我连接弄清楚如何有几个断开连接的树来反映数据的断开连接性质。我想避免使用多个图,因为我希望使用可能具有许多不相交集群的较大数据集。
python - 如何将我的原始数据与集群数据关联起来
我有一个距离矩阵表示成对元素的距离矩阵,例如
我输入数组,如聚类
我的fcluster输出类似于 [ 4 10 12 1 5 13 2 11 1 7 8 3 14 6 10 16 9 15 1 7] 来自其他人的先前海报
我了解输出 T[i] 仅显示集群中元素的数量......我如何将原始元素 A、B、C、D、E..... 元素与集群结果和树状图联系起来?并将它们正确地放入我的数字中。
python - 如何在python中链接层次结构树状图的刻度?
我有一个层次聚类的图,x 刻度是聚类后的观察指数。如何添加标签,以便我可以将链接到索引的原始观察名称链接到索引编号列表(例如 [11, 6 ,18, 3 5, 12....])。对于直方图,我可以通过字符串列表分配标签,因为索引始终为 1,2,3...4,但对于聚类后的绘图,观察索引会改变......我可以使用任何对象或函数利用?
r - R FactoMineR:返回集群成员
我已经制作了一个HCPC
对象,并希望返回一个观察列表以及它们属于哪些集群。我找不到执行此操作的命令;有人知道吗?
仅供参考,这是我的工作:
编辑:一个可重现的例子:
parameters - 没有输入参数的聚类数据
这更像是一个理论问题:
你知道任何不需要任何输入参数的聚类算法(平面或分层),比如聚类的数量或邻域的大小等?换句话说,您只需将数据作为输入提供给算法,然后将集群作为输出。
如果有关文件/文件的建议,我会很高兴。
python - Scipy 树状图叶标签颜色
是否可以为 Scipy 的树状图的叶子标签分配颜色?我无法从文档中弄清楚。这是我到目前为止所尝试的:
谢谢。
data-mining - 了解分区网络的分区密度
我正在实施链接社区社区检测算法。我无法理解论文中描述的分区密度的解释
这里只是定义分区密度的部分:
我找不到链路密度的定义(等式 2)和分区密度的定义(等式 3)之间的联系。因此,我不明白为什么分区密度是这样定义的。而且我特别看不到(等式3)如何计算(等式2)的平均值 - 如果有平均值,我希望分区数(c)低于水平线(在除数中)
我无法搜索任何其他分区密度的定义。
任何可以对此有所了解的人将不胜感激。
email - 如何将邮件主题行聚集到邮件线程?
如果我只有邮件的主题行(没有其他标题),是否有一个好的算法(或包)将它们聚集成一组“相关消息”?
带有主题的邮件
Our travel plans
可能与
Re: Our travel plans
和Re: Re: Our travel plans
.
到目前为止还不错,但也有
AW: Our travel plans
Fwd: Our travel plans
Our travel plans (Forward)
我想将它们全部聚集到一个线程中。plans
当然,主题为,等的邮件Re: Our meeting
不应出现在该线程中。我可以很好地实现分层结果——实际上,我有点喜欢那样,因为我希望具有相似内容的邮件有可能彼此“更接近”。
所以,我有很多想法:后缀匹配、前缀树、Levensthein 距离、Q-Gram 配置文件——可能太多了。因此我问自己:“有人已经这样做了吗?”