将 CSV 读入 R 并希望使用 tm 包从中制作语料库,但没有得到所需的结果。目前,当我读入 CSV 文本,然后检查语料库时,数据都是数字的。(为了保护隐私,我只包括了前三列data
;检查结果显示有九列。)
library(tm)
data <- read.csv("filename.csv")
head(data)
Directory.Code First.Name Last.Name
1 SCA0025 Nbcde Cdbaace
2 SCA0025 AJCocei aiceice
3 SCA0025 aceca Ac;eice
4 SCA0025 Acoicm aie;cee
5 SCA0025 acei aciomac
6 SCA0025 caeij CIMCEv
data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1`
16
2195
6655
6613
1
5
9757
1
1
如果它有助于了解目的:我正在尝试读取名称和未规范化的职位/描述的 csv,然后将已知标题/描述的语料库作为类别进行比较。现在我输入了这个,我意识到这个 csv 将是我的测试/预测数据,但我仍然想从 colnames = KnownJobTitle,Description 的 csv 构建一个语料库。
这个问题的目标是成功地将 CSV 读入语料库,但我也想知道是否建议将 tm 包用于 2 个以上的分类,和/或是否有其他包更适合此任务.