0

我今天遇到了 text2vec 包,这正是我解决特定问题所需要的。但是,我无法弄清楚如何将使用 text2vec 创建的 dtm 导出到某种输出文件。我的最终目标是使用 text2vec 在 R 中生成特征,并将生成的矩阵导入 H2O 以进行进一步建模。H2O 可以读取 CSV 或 SVMLight 格式。

我创建的第一个是987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries,所以它很大。无法使用 as.matrix() 将其写入 CSV,因为它太大了。我认为我可能能够轻松地将其写成 SVMLight 格式,但一直无法找到可以工作的库。任何人都有任何其他选项可以将此输出转换为我可以读入 H2O 的文件?

4

1 回答 1

1

有几个包可以做到这一点。看看https://github.com/Laurae2/sparsity - 恕我直言,最有希望的:

library(text2vec)
library(sparsity)
data("movie_review")
N = 5000
tokens = movie_review$review[1:N] %>% tolower %>% word_tokenizer
it = itoken(tokens, progressbar = T)
dtm = create_dtm(it, hash_vectorizer())
write.svmlight(dtm, labelVector = movie_review$sentiment, file = "dtm.svmlight")
于 2016-11-27T05:11:14.443 回答