1

将 CSV 读入 R 并希望使用 tm 包从中制作语料库,但没有得到所需的结果。目前,当我读入 CSV 文本,然后检查语料库时,数据都是数字的。(为了保护隐私,我只包括了前三列data;检查结果显示有九列。)

library(tm)

data <- read.csv("filename.csv")
head(data)    
  Directory.Code First.Name Last.Name
1        SCA0025     Nbcde    Cdbaace
2        SCA0025   AJCocei    aiceice
3        SCA0025      aceca   Ac;eice
4        SCA0025      Acoicm  aie;cee 
5        SCA0025     acei     aciomac
6        SCA0025       caeij   CIMCEv

data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 

$`1`
16
2195
6655
6613
1
5
9757
1
1

如果它有助于了解目的:我正在尝试读取名称和未规范化的职位/描述的 csv,然后将已知标题/描述的语料库作为类别进行比较。现在我输入了这个,我意识到这个 csv 将是我的测试/预测数据,但我仍然想从 colnames = KnownJobTitle,Description 的 csv 构建一个语料库。

这个问题的目标是成功地将 CSV 读入语料库,但我也想知道是否建议将 tm 包用于 2 个以上的分类,和/或是否有其他包更适合此任务.

4

1 回答 1

1

我得到类似的错误。这是因为从 csv 读取的文本字段是分类而不是字符。您需要首先使用以下方法将它们转换为字符:

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)
于 2013-12-30T22:06:12.917 回答