0

我正在尝试从用韩语编写的 pdf 文件中提取表格文本。我使用名为 tabulizer 的库来提取文本。

所以我的代码是

library(pdftools)
library(tidytext)
library(dplyr)
library(janeaustenr)
library(rJava)
library(tabulizer)
library(tidyverse)

setwd("C:/Users/user/Desktop/Test") #This is my directory which contain pdf files.
files <- list.files(pattern = "pdf$")
f2 <- files[6]

e <- extract_text(f2,pages = 25,encoding = 'UTF-8')

但问题是 pdf 文件中的表格,该模式不适合我。我想垂直提取数据,但是,extract_text 函数使字符串水平

以下是 extract_text 发生的结果:

나. 집합투자기구에 부과되는 보수 및 비용 \r\n구분 \r\n지급비율(연간, %) \r\n지급시기 \r\nC(수수료미징\r\n구-오프라인) \r\nW(수수료미징\r\n구-오프라인-\r\n랩) \r\ne(수수료미징구\r\n-온라인) \r\nI(수수료미징구-\r\n오프라인-기관) \r\nC-P(수수료미\r\n징구-오프라인-\r\n개인연금) \r\nC-P2(수수료미\r\n징구-오프라인-\r\n퇴직연금) \r\n집합투자업자 보수 0.46 0.46 0.46 0.46 0.46 0.46 \r\n매 3개월 \r\n판매회사 보수 1.00 0.00 0.98 0.03 0.95 0.85 \r\n수탁회사 보수 0.025 0.025 0.025 0.025 0.025 0.025 \r\n일반사무관리회사 보\r\n수 \r\n0.005 0.005 0.005 0.005 0.005 0.005 \r\n총 보수 1.49 0.49 1.47 0.52 1.44 1.34 - \r\n기타비용 0.002 0.002 0.002 0.002 0.002 0.002 사유 발생 시 \r\n총 보수․비용 1.492 0.492 1.472 0.522 1.442 1.342 - \r\n(동종유형 총 보수) 1.59 - 1.22 - - - - \r\n총 보수․비용 \r\n(피투자 집합투자기구 보수 포함) 1.493 0.493 1.473 0.523 1.443 1.343 - \r\n증권거래비용 0.107 0.108 0.105 0.108 0.106 0.104 사유 발생 시 \r\n구분 지급비율(연간, %) 지급시기 \r\n"

更具体地说,我附上了捕获图像。

在此处输入图像描述

同样,我要提取的是垂直的(红色圆圈)但是 extract_text 水平组织它(蓝色圆圈)

另外,如果您知道如何组织文本,{cat(e, sep="\n")}请发表评论,因为使用 cat 函数,我不能将结果包含在变量中,它会自动给我输出,我别无选择包含这些值..但我希望事情有条理和'任何时候我想需要一些信息,我都会去容器变量,然后获取信息..' <<这就是我需要的

4

0 回答 0