我已经使用 pdf_text 读取 pdf 文件并将它们拆分为表格 这是我的代码和结果(在我的语言中有许多 <U+F70A> 而不是一些字符):结果
> txt14_16 <- pdf_text(".pdf")
> data<-(txt14_16[100])
> df <- data %>%
read_lines()%>%
grep('^\\s{5}\\w|^\\s{1}\\w',., value = TRUE)
> out <- data.table(do.call( rbind, strsplit( df, '\\s{3,}' ) ))
我曾尝试使用此代码
out1<-out%>%
stri_replace_all_regex("<U\\+([[:alnum:]]+)>", "\\\\u$1") %>%
stri_unescape_unicode() %>%
stri_enc_toutf8()
这很好(它会在没有 < U+F70A> 的情况下在 R 结果中出现我的语言中的所有字符串)作为结果但我无法将它们导出到 Excel、文本、csv。当我导出它们时,它们将显示为 < U+F70A>
所以,我想在没有 <U+F70A> 的情况下将它们导出到 Excel。