我是一名迷失在数据科学中的文学学生。我正在尝试分析一个包含 70 个 .txt 文件的语料库,它们都在一个目录中。
我的最终目标是获得一个包含文件名(或类似内容)、句子和字数、Flesch-Kincaid 可读性分数和 MTLD 词汇多样性分数的表格。
我找到了 koRpus 和 tm 包(以及 tm.plugin.koRpus),并试图了解它们的文档,但还没有走多远。在 RKward IDE 和 koRpus-Plugin 的帮助下,我设法一次为一个文件获取所有这些度量,并且可以手动将这些数据复制到一个表中,但这非常麻烦并且仍然需要大量工作。
到目前为止,我尝试的是这个命令来创建我的文件语料库:
simpleCorpus(dir = "/home/user/files/", lang = "en", tagger = "tokenize",
encoding = "UTF-8", pattern = NULL, recursive = FALSE, ignore.case = FALSE, mode = "text", source = "Wikipedia", format = "file",
mc.cores = getOption("mc.cores", 1L))
但我总是得到错误:
Error in data.table(token = tokens, tag = unk.kRp):column or argument 1 is NULL).
如果有人可以帮助 R 的绝对新手,我将非常感激!