我现在正在尝试使用 readtext 提取放置在一个文件夹中的大量 docx 文件(1500 个)(在使用 list.files 创建列表之后)
你可以在这里找到类似的例子:https ://cran.r-project.org/web/packages/readtext/vignettes/readtext_vignette.html
我收到一些文件错误(下面的示例),问题是发生此错误时,提取过程停止。我可以通过更改来识别有问题的文件,verbosity = 3
但随后我必须重新启动提取过程(以查找另一个有问题的文件)。
我的问题是,如果遇到错误,是否有办法避免中断进程?
我改变ignore_missing_files = TRUE
了,但这并没有解决问题。
遇到的错误示例:
write error in extracting from zip file
Error: 'C:\Users--- c/word/document.xml' does not exist.
很抱歉没有发布可重现的示例,但我不知道如何发布带有大型 docx 文件的示例。但这是代码:
library(readtext)
data_files <- list.files(path = "PATH", full.names = T, recursive = T) # PATH = the path to the folder where the documents are located
extracted_texts <- readtext(data_files, docvarsfrom = "filepaths", dvsep = "/", verbosity = 3, ignore_missing_files = TRUE) # this is to extract the text in the files
write.csv2(extracted_texts, file = "data/text_extracts.csv", fileEncoding = "UTF-8") # this is to export the files into csv