0

我需要一些关于 TM 的帮助来完成一项任务。我有一个 csv 文件,其中有约 300 行和 42 个变量,其中一些变量具有 NA 值。在将数据加载到 NLP 应用程序之前,我想使用 TM 清理此文件。具体来说,我想删除停用词、数字和标点符号。可能不需要词干。最后五列主要是需要清理的列。重要的是,NLP 应用程序允许以表格形式输入,这就是我希望输入结构化的方式。

理想情况下,我想使用 TM 将数据帧转换为语料库,执行清理,然后将清理后的文本数据返回到 csv 文件的结构中,以用作 NLP 应用程序的输入。

我正在测试我使用较小 csv 文件中的文本数据执行此任务的能力。它是 7 行乘 42 个变量。

使用 RStudio,我完成了以下操作

Tiz.corpus <- 语料库(DataframeSource(Tiz))

inspect(Tiz.corpus) 包含 7 个文本文档的语料库

元数据由 2 个标签值对和一个数据框组成 可用标签为:create_date creator 数据框中的可用变量为:MetaID

……

在这一点上,我做了以下......

Tiz.corpus <- tm_map(Tiz.corpus, tolower)  # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english"))  # Remove stopwords

到目前为止,一切都很好。然后我试了...

writeCorpus(Tiz.corpus) 

我得到的是以下7个文件,内容如下......

132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2

我不确定此时该怎么做才能恢复我的文本数据并将其保存在原始 csv 文件的结构中。

TM 是不是适合这项工作的工具?

何塞

4

0 回答 0