我正在使用以下数据(集群 data.xsls),从 2000 年到 2020 年,我每年都有 5 个变量(Mkt、SMB、HML、RMW 和 CMA)的值(第 2 列:vardep) :
我需要为这些数据建立年度集群。然后我首先对每年的数据进行划分(在这个例子中我只使用 2000 年到 2005 年的数据),以便使用 vardep 作为索引:
library(tidyverse)
c_2000<- c_year[c_year$year=="2000",] %>% column_to_rownames(., var = "vardep")
c_2001<- c_year[c_year$year=="2001",] %>% column_to_rownames(., var = "vardep")
c_2002<- c_year[c_year$year=="2002",] %>% column_to_rownames(., var = "vardep")
c_2003<- c_year[c_year$year=="2003",] %>% column_to_rownames(., var = "vardep")
c_2004<- c_year[c_year$year=="2004",] %>% column_to_rownames(., var = "vardep")
c_2005<- c_year[c_year$year=="2005",] %>% column_to_rownames(., var = "vardep")
c_2000 <- c_2000[,-1]
c_2001 <- c_2001[,-1]
c_2002 <- c_2002[,-1]
c_2003 <- c_2003[,-1]
c_2004 <- c_2004[,-1]
c_2005 <- c_2005[,-1]
我使用的聚类方法是 k-means。然后在评估误差曲线的拐点以决定合适的集群数量后,我决定每年使用 3 个集群,并按照以下方式执行集群:
k2000 <- kmeans(x = c_2000,
centers = 3,
nstart = 25)
k2001 <- kmeans(x = c_2001,
centers = 3,
nstart = 25)
k2002 <- kmeans(x = c_2002,
centers = 3,
nstart = 25)
k2003 <- kmeans(x = c_2003,
centers = 3,
nstart = 25)
k2004 <- kmeans(x = c_2004,
centers = 3,
nstart = 25)
k2005 <- kmeans(x = c_2005,
centers = 3,
nstart = 25)
我真正需要的是根据每个相关股份的新变量来评估这些集群的同质性。该变量是销售额的增长,每股的年价值可以在此处以“fundamental_comparison”的形式找到:
我想知道就该确切变量而言,同一集群内和不同集群之间的共享有何不同。我在本文的第 12 页找到了一个可能的帮助,其中使用了多级模型,但我无法在我的案例中使用它。我想知道你们中是否有人知道如何及时测试我的集群中的同质性,或者您是否可以帮助我执行合适的代码来应用论文解释的内容。
我是初学者,所以提前感谢您的帮助。