r - 如何对大型数据库进行采样并在 R 中实现 K-means 和 K-nn？

Question

我是 R 的新用户，试图摆脱 SAS。我在这里问这个问题是因为我对 R 可用的所有包和源感到有点沮丧，而且我似乎无法让这个工作主要是由于数据大小。

我有以下内容：

本地 MySQL 数据库中名为 SOURCE 的表，具有 200 个预测器特征和一个类变量。该表有 300 万条记录，大小为 3GB。每个类的实例数不相等。

我想要：

随机抽样 SOURCE 数据库以创建一个较小的数据集，每个类具有相同数量的实例。
将样本分成训练集和测试集。
在训练集上进行 k-means 聚类以确定每个类的 k 个质心。
使用质心对测试数据进行 k-NN 分类。

score 3 · Accepted Answer

我将继续的方式是：

1) 将表的 id 列表提取到 R，您可以使用RMySQL库通过简单的 SQL 查询来完成此操作。

2) 在 R 中以您喜欢的任何方式拆分 id，然后使用RMySQL再次执行后续 SQL 查询（我发现这两个步骤的方法比直接在 MySQL 中采样要快得多）。

3）根据您的样本有多大，您可以通过使用基本的 R kmeans 实现来摆脱困境，但是对于更大的样本，这可能会失败，在这种情况下，您应该考虑使用库 biganalytics 中的bigkmeans。

score 0 · Accepted Answer

我认为您的许多问题都可以通过使用 caret 包来解决。关于具有相同类成员资格的随机抽样，我会将其推回到 SQL 中，只需为每个指定的类运行两个具有您想要的大小的查询。其他人提到 RMySql、RODBC 或 RJDBC 也可以。要将数据分成训练集和测试集，请使用以下插入符号函数：

# separate data into test and train sets, 70/30 split in this case

splitIndex <- createDataPartition(mydata$mytargetcolumn, p = 0.7, list = FALSE)
train <- mydata[splitIndex, ]
test <- mydata[-splitIndex, ]
testInd <- test[ ,!colnames(test) %in% "mytargetcolumn"]
testDep <- as.factor(test[, names(test) == "mytargetcolumn"])

您也可以使用插入符号来执行 KNN，如下所示：

modelKNN <- knn3(mytargetcolumn ~ ind1 + ind2, data = train, k = neighborCount, prob = TRUE)

然后预测很容易：

# prediction using KNN to get class probabilities, change 'type' if you just want class prediction

predKNN <- predict(modelKNN, testInd, type = "prob")

您还可以使用插入符号进行评估：

# Generate confusion matrix from class predictions and actual values

confKNN <- confusionMatrix(testDep, predKNN)

虽然我个人使用 AUC（通过 pROC 包）进行分类模型评估，因为它是比准确度更细粒度的分类器强度度量。

score 0 · Accepted Answer

我可以帮你解决两个问题。1-分层抽样 2-拆分训练和测试（即校准验证）

        n = c(2.23, 3.5, 12,2, 93, 57, 0.2,
 33, 5,2, 305, 5.3,2, 3.9, 4) 
     s = c("aa", "bb", "aa","aa", "bb", "cc","aa", "bb",
 "bb","aa", "aa","aa","aa","bb", "cc") 
         id = c(1, 2, 3,4, 5, 6,7, 8, 9,
10, 11, 12,13, 14, 15) 
         df = data.frame(id, n, s )       # df is a data frame

        source("http://news.mrdwab.com/stratified")
        sample<- stratified(df=df, 
                            id=1, #ID of your dataframe, 
                            #if there isn't you have to create it
                            group=3, #the position of your predictor features
                            size=2, #cardinality of selection
                            seed="NULL") 

        #then add a new column to your selection 
        sample["cal_val"]<- 1

        #now, you have a random selection of group 3, 
        #but you need to split it for cal and val, so:

        sample2<- stratified(df=sample, #use your previous selection
                             id=1, 
                             group=3, #sample on the same group used previously
                             size=1,#half of the previous selection
                             seed="NULL")

        sample2["val"]<- 1
        #merge the two selection
        merge<- merge(sample, sample2, all.x=T, by="id")
        merge[is.na(merge)] <- 0 #delete NA from merge
    #create a column where 1 is for calibration and 2 for validation    
    merge["calVal"]<- merge$cal_val.x + merge$cal_val.y 
#now "clean" you dataframe, because you have too many useless columns       
 id<- merge$id  
        n<- merge$n.x 
        s<- merge$s.x
        calval<- merge$calVal
        final_sample<- data.frame(id, n, s, calval)

r - 如何对大型数据库进行采样并在 R 中实现 K-means 和 K-nn？

3 回答 3

Related

Reference