0

我使用相同的数据集在 text2vec 中创建了一个 tf-idf DTM 和一个基于 n-gram 的 DTM。现在,我可以分别在它们每个上运行 glmnet,但是当我通过 cBind 将这两个 DTM 结合起来时,glmnet 给了我一个错误:

Error in validObject(.Object) :invalid class “dgCMatrix” object: length(Dimnames[1]) differs from Dim[1] which is 43895

dtm_train_tfidf = (19579 * 27511) 矩阵,和

dtm_train_ngram = (19579 * 16384) 矩阵。

这意味着它们具有相同的确切行数,我可以使用 cBind(用于矩阵的 cbind)组合它们并获得一个大矩阵,我应该能够在该矩阵上运行 glmnet。只有我无法运行它并且我收到此错误。我该如何纠正?

4

1 回答 1

1

这是由于错误https://github.com/dselivanov/text2vec/issues/205造成的。您可以使用来自 GitHub 的开发版本,或者只是从哈希矢量化器中删除 dtm 的 colnames。

于 2017-12-14T17:43:16.533 回答