0

目标是在每一行的数据框中的名为“text”的文本列中查找和替换来自 pdf 解析的工件。

"<U+FB01>"将被替换为"fi"& "<U+FB02>"将被替换为"fl"

df<-data.frame(text=c('Das neue P<U+FB02>ege<U+FB01>nanzierungsgesetz','Die Kon<U+FB02>ikte zwischen Spitalrat und','Im neuen Spital<U+FB01>nanzierungsgesetz, welches'))

应该:

df2<-data.frame(text=c('Das neue Pflegefinanzierungsgesetz','Die Konflikte zwischen Spitalrat und','Im neuen Spitalfinanzierungsgesetz, welches'))

数据框截图:https ://i.imgur.com/UvFIrNg.png

我能找到最接近的解决方案(但无法使其工作):在列中搜索文本并完全替换

谢谢你的时间!

4

1 回答 1

0

您可以使用gsub

df <- data.frame(text=c('acbd<U+FB01>efg', 'abc<U+FB01> efg <U+FB02>', 'ab cd'),
                 stringsAsFactors = F)
df

#                      text
#1          acbd<U+FB01>efg
#2 abc<U+FB01> efg <U+FB02>
#3                    ab cd

df$text <- gsub('<U\\+FB01>', 'fi', df$text)
df$text <- gsub('<U\\+FB02>', 'fl', df$text)
df

#          text
#1    acbdfiefg
#2 abcfi efg fl
#3        ab cd

请注意,\\转义+正则表达式中具有特殊含义的字符。

于 2018-11-02T00:31:27.250 回答