我需要一些关于 TM 的帮助来完成一项任务。我有一个 csv 文件,其中有约 300 行和 42 个变量,其中一些变量具有 NA 值。在将数据加载到 NLP 应用程序之前,我想使用 TM 清理此文件。具体来说,我想删除停用词、数字和标点符号。可能不需要词干。最后五列主要是需要清理的列。重要的是,NLP 应用程序允许以表格形式输入,这就是我希望输入结构化的方式。
理想情况下,我想使用 TM 将数据帧转换为语料库,执行清理,然后将清理后的文本数据返回到 csv 文件的结构中,以用作 NLP 应用程序的输入。
我正在测试我使用较小 csv 文件中的文本数据执行此任务的能力。它是 7 行乘 42 个变量。
使用 RStudio,我完成了以下操作
Tiz.corpus <- 语料库(DataframeSource(Tiz))
inspect(Tiz.corpus) 包含 7 个文本文档的语料库
元数据由 2 个标签值对和一个数据框组成 可用标签为:create_date creator 数据框中的可用变量为:MetaID
……
在这一点上,我做了以下......
Tiz.corpus <- tm_map(Tiz.corpus, tolower) # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english")) # Remove stopwords
到目前为止,一切都很好。然后我试了...
writeCorpus(Tiz.corpus)
我得到的是以下7个文件,内容如下......
132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2
我不确定此时该怎么做才能恢复我的文本数据并将其保存在原始 csv 文件的结构中。
TM 是不是适合这项工作的工具?
何塞