r - R 中的 tm 包挂起小数据集

Question

我有一个包含 30k 条记录（公司名称和其他属性）的 data.frame。dba_nm是最长元素 < 60 个字符的公司名称字段。

当我尝试以下代码时，R 会话的内存使用量从 100MB 上升到 3GB 并挂起?tm::VectorSource：

ds <- VectorSource(dat$dba_nm)
inspect(Corpus(ds))

score 0 · Accepted Answer

好吧，我从数据库中获取了一个数据框（dat）并尝试将其中一列（dba_nm）读入向量源。事实证明，您必须将其转换为字符向量。以下代码有效：

> cs <- as.character(dat$dba_nm)
> ds <- VectorSource(cs)
> Corpus(ds)
A corpus with 30453 text documents

1 回答 1