r - R tm 包 DataframeSource 导入

Question

将 CSV 读入 R 并希望使用 tm 包从中制作语料库，但没有得到所需的结果。目前，当我读入 CSV 文本，然后检查语料库时，数据都是数字的。（为了保护隐私，我只包括了前三列data；检查结果显示有九列。）

library(tm)

data <- read.csv("filename.csv")
head(data)    
  Directory.Code First.Name Last.Name
1        SCA0025     Nbcde    Cdbaace
2        SCA0025   AJCocei    aiceice
3        SCA0025      aceca   Ac;eice
4        SCA0025      Acoicm  aie;cee 
5        SCA0025     acei     aciomac
6        SCA0025       caeij   CIMCEv

data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 

$`1`
16
2195
6655
6613
1
5
9757
1
1

如果它有助于了解目的：我正在尝试读取名称和未规范化的职位/描述的 csv，然后将已知标题/描述的语料库作为类别进行比较。现在我输入了这个，我意识到这个 csv 将是我的测试/预测数据，但我仍然想从 colnames = KnownJobTitle,Description 的 csv 构建一个语料库。

这个问题的目标是成功地将 CSV 读入语料库，但我也想知道是否建议将 tm 包用于 2 个以上的分类，和/或是否有其他包更适合此任务.

score 1 · Accepted Answer

我得到类似的错误。这是因为从 csv 读取的文本字段是分类而不是字符。您需要首先使用以下方法将它们转换为字符：

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)

r - R tm 包 DataframeSource 导入

1 回答 1

Related

Reference