我有一个混合文件类型的 MS Word 文档集合。有些文件是 *.doc,有些是 *.docx。我正在学习使用tm
,并且我(或多或少*)使用以下方法成功创建了一个由 *.doc 文件组成的语料库:
ex_eng <- Corpus(DirSource('~/R/expertise/corpus/english'),
readerControl=list(reader=readDOC,
language='en_CA',
load=TRUE));
此命令不处理 *.docx 文件。我假设我需要一个不同的读者。从这篇文章中,我了解到我可以自己编写(鉴于对我目前没有的 .docx 格式有很好的理解)。
readDOC 阅读器使用antiword来解析 *.doc 文件。是否有类似的应用程序可以解析 *.docx 文件?
或者更好的是,是否已经有一种使用 tm 创建 *.docx 文件语料库的标准方法?
* 或多或少,因为虽然文件进入并且是可读的,但对于每个文档,我都会收到以下警告:In readLines(y, encoding = x$Encoding) : incomplete final line found on 'path/to/a/file.doc'