我有一个包含 16163 个字符串的向量,如下所示:
sentencevector <- c('decided clean debt get finances together Thank consideration',
'I stable job I will never get laid I fixed',
'Using pay existing loans credit card debt All higher',
'Substantially lower giving peace mind My job stable'...)
句子有随机单词和随机长度。
从那个向量,我想得到一个虚拟变量矩阵。每列代表一个单词。如果单词在句子中,则显示 1,否则显示 0。
矩阵的第一行如下所示:
Data <- data.frame(
X = c('decided clean debt get finances together thank consideration'...),
decided = 1,
lean = 1,
dance = 0,
debt=1 ,...)
我在名为 Universe 的句子向量中做了一个唯一单词列表,并尝试使用以下代码创建一个 df:
df <-setNames(data.frame(matrix(ncol = length(universe), nrow = length(sentencevector)), universe)
然后我尝试用嵌套循环填充矩阵,但它需要太长时间。