我正在从泰米尔语(印度当地语言)语言的 .pdf 文件中提取数据,从 pdf 文件中提取 R 中的文本后,我得到了一些垃圾或 unicode 字符格式的文本。我无法将其映射到正确的文本或与 pdf 文件中相同的文本,这是代码
library(tm)
library(pdftools)
library(qdapRegex)
library(stringr)
library(textreadr)
if(!require("ghit")){
install.packages("ghit")
}
# on 64-bit Windows
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"), INSTALL_opts = "--no-multiarch")
# elsewhere
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"))
text <- extract_tables("D:/first.pdf")
text[[1]][,2][3]
这给了我一些垃圾字符,比如
"«îù£ñ¢«ð좬ì , âô¢ì£ñ¢ú¢ «ó£ Ì"
我尝试更改 unicode 类型
library(stringi)
stri_trans_toupper("ê¶ó®", locale = "Tamil")
但虽然没有成功。任何建议都将是可观的。
谢谢。