r - 使用 TM 清理 CSV 文件后如何保留表结构？

Question

我需要一些关于 TM 的帮助来完成一项任务。我有一个 csv 文件，其中有约 300 行和 42 个变量，其中一些变量具有 NA 值。在将数据加载到 NLP 应用程序之前，我想使用 TM 清理此文件。具体来说，我想删除停用词、数字和标点符号。可能不需要词干。最后五列主要是需要清理的列。重要的是，NLP 应用程序允许以表格形式输入，这就是我希望输入结构化的方式。

理想情况下，我想使用 TM 将数据帧转换为语料库，执行清理，然后将清理后的文本数据返回到 csv 文件的结构中，以用作 NLP 应用程序的输入。

我正在测试我使用较小 csv 文件中的文本数据执行此任务的能力。它是 7 行乘 42 个变量。

使用 RStudio，我完成了以下操作

Tiz.corpus <- 语料库(DataframeSource(Tiz))

inspect(Tiz.corpus) 包含 7 个文本文档的语料库

元数据由 2 个标签值对和一个数据框组成可用标签为：create_date creator 数据框中的可用变量为：MetaID

……

在这一点上，我做了以下......

Tiz.corpus <- tm_map(Tiz.corpus, tolower)  # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english"))  # Remove stopwords

到目前为止，一切都很好。然后我试了...

writeCorpus(Tiz.corpus)

我得到的是以下7个文件，内容如下......

132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2

我不确定此时该怎么做才能恢复我的文本数据并将其保存在原始 csv 文件的结构中。

TM 是不是适合这项工作的工具？

何塞

r - 使用 TM 清理 CSV 文件后如何保留表结构？

0 回答 0

Related

Reference