r - 在 r 中使用 dplyr 将纯文本转换为数据框

Question

我正在尝试使用 r 将使用 pdftools 和 tidyverse 从 pdf 中抓取的纯文本转换为数据框。我希望使用 tidyverse 包的解决方案。我使用以下代码获取包含我的基本信息的字符串列表：

library(tidyverse)
library(pdftools)

textdf <- pdf_text("raw pdf.pdf")

all_stats_lines <- textdf[3:28]%>%
  str_squish()%>%
  str_replace_all(",", "")%>%
  str_remove_all("\\+80% \\+80% \\+80% \\+40% \\+40% \\+40% Baseline Baseline Baseline \\-40% \\-40% 
  \\-40% \\-80% \\-80% \\-80% Sun Feb 16 Sun Mar 8 Sun Mar 29 Sun Feb 16 Sun Mar 8 Sun Mar 29 Sun Feb 
  16 Sun Mar 8 Sun Mar 29")%>% 
  str_remove_all("compared to baseline")%>%
  strsplit("   ")

这会产生以下格式的 26 个字符串列表的列表：


[[1]]
[1] "Alaska Variable 1 Variable 2 Variable 3 42  15  5" 
[2] "Variable 4 Variable 5 Variable 6 43  30  11"              
[3] "Alabama Variable 1 Variable 2 Variable 3 27  9  79"
[4] "Variable 4  Variable 5 Variable 6 20  23  4  "          

[[2]]
[1] "Arizona Variable 1 Variable 2 Variable 3 40  17  7" 
[2] "Variable 4 Variable 5 Variable 6 41  33  10"              
[3] "Arkansas Variable 1 Variable 2 Variable 3 29  7  81"
[4] "Variable 4  Variable 5 Variable 6 22  27  7  "   

... etc.

请注意子列表第 1 行和第 3 行开头的状态名称以及变量名称中的空格。每个状态应该是一行。应该有 6 列变量 1 变量 2 变量 3 变量 4 变量 5 变量 6 以及相应的值。

有关如何构建此表的任何解决方案？

score 0 · Accepted Answer

为了做到这一点，您需要解决几个问题。

将文本拆分为列
组合成对的行
组合列表

如果您只打算这样做一次，将您的数据复制到 Excel 中，在那里格式化然后将其加载到 R 中可能会更简单。但是如果您致力于使用 R，那么我们需要完成其中的每一个为了：

1）文本到列

strsplit(string, " ")将在空格上拆分文本字符串。strsplit(string, "[[:space:]]+")将在空白处拆分，将连续的空白视为单个拆分。但是，您要避免将“变量 1”分成“变量”和“1”，并将“北达科他州”分成“北”和“达科他州”

这里的一个快速解决方案是gsub("North ", "North_", string)将“North Dakota”变成“North_Dakota”，这样当你申请时这两个词会保持在一起strsplit。

2) 组合成对的行

您可以使用模来提取向量的每隔一个条目：1:4 %% 2将返回c(1,0,1,0). 这可用于提取每秒的值，如下所示vec[1:4 %% 2 == 1]：

将这些成对组合会给您以下内容：

vec = c('a', 'b', 'c', 'd')
paste(vec[1:4 %% 2 == 1], vec[1:4 %% 2 == 0])

3) 组合列表

这里最简单的解决方案可能是unlist. 但是您也可以使用包reduce中的功能purrr。

结合这一切

data = unlist(data)
data = trimws(data)
nn = length(data)
data = paste(data[1:nn %% 2 == 1], data[1:nn %% 2 == 0])

# add other rules here for state names that are two words
data = gsub("ariable ", "ariable_", data)
data = gsub("North ", "North_", data)

data %>%
  strsplit("[[:space:]]+") %>%
  purrr::reduce(rbind) %>%
  as.data.frame()

r - 在 r 中使用 dplyr 将纯文本转换为数据框

1 回答 1

1）文本到列

2) 组合成对的行

3) 组合列表

结合这一切

Related

Reference