Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个包含 30k 条记录(公司名称和其他属性)的 data.frame。dba_nm是最长元素 < 60 个字符的公司名称字段。
dba_nm
当我尝试以下代码时,R 会话的内存使用量从 100MB 上升到 3GB 并挂起?tm::VectorSource:
?tm::VectorSource
ds <- VectorSource(dat$dba_nm) inspect(Corpus(ds))
好吧,我从数据库中获取了一个数据框(dat)并尝试将其中一列(dba_nm)读入向量源。事实证明,您必须将其转换为字符向量。以下代码有效:
> cs <- as.character(dat$dba_nm) > ds <- VectorSource(cs) > Corpus(ds) A corpus with 30453 text documents