-5

我有一个包含 30k 条记录(公司名称和其他属性)的 data.frame。dba_nm是最长元素 < 60 个字符的公司名称字段。

当我尝试以下代码时,R 会话的内存使用量从 100MB 上升到 3GB 并挂起?tm::VectorSource

ds <- VectorSource(dat$dba_nm)
inspect(Corpus(ds))
4

1 回答 1

0

好吧,我从数据库中获取了一个数据框(dat)并尝试将其中一列(dba_nm)读入向量源。事实证明,您必须将其转换为字符向量。以下代码有效:

> cs <- as.character(dat$dba_nm)
> ds <- VectorSource(cs)
> Corpus(ds)
A corpus with 30453 text documents
于 2012-08-30T13:32:54.283 回答