regex - 使用 R 将 POS 标记的文本向量/因子拆分为句子 - 正则表达式

Question

请帮助我完成我的小项目。

一个文本元素（因子）有句子（实际上是许多文本元素的列表）。文本带有 POS 标记。我需要将单个句子分成单独的元素。

我想，我必须将 all"./$. ", "!/$. ", "?/$. "等与一些 R 函数匹配，并将输出保存为因子列表。每个因素都是一个句子。

示例文本和代码：

library(stingr)

# Input vector/factor with "/$. " separated sentences

r <- c("Ich/PPER habe/VAFIN meinen/PPOSAT Berkeley/NN jetzt/ADV seit/APPR 11/CARD Jahren/NN im/APPRART fast/ADV tÃ¤glichen/ADJA Einsatz/NN ./$. In/APPR der/ART Schule/NN und/KON im/APPRART Studium/NN war/VAFIN der/ART Rucksack/NN meistens/ADV bis/APPR zum/APPRART bersten/ADJA mit/APPR BÃ¼chern/NN gefÃ¼llt/VVPP ,/$, jetzt/ADV benutze/VVFIN ich/PPER das/ART gute/ADJA StÃ¼ck/NN auf/APPR dem/ART Weg/NN zur/APPRART Arbeit/NN !/$. Das/ART Volumen/NN -LRB-/TRUNC 30/CARD Liter/NN -RRB-/TRUNC ist/VAFIN enorm/ADJD und/KON lÃ¤sst/VVFIN sich/PRF ,/$, dank/APPR der/ART Form/NN ,/$, besonders/ADV fÃ¼r/APPR BÃ¼cher/NN und/KON Schreibutensilien/NN ideal/ADJD nutzen/VVINF ./$.")

# output list of vectors/factors with splited sentences as list elements
(r.listOfSent <- as.list(strsplit(as.character(r), "//$.")))
> r.sentlist
[[1]]
 [1] "Ich/PPER habe/VAFIN meinen/PPOSAT Berkeley/NN jetzt/ADV seit/APPR 11/CARD Jahren/NN im/APPRART fast/ADV tÃ¤glichen/ADJA Einsatz/NN ."                                                                                                                                                                                                                      
 [2] " In/APPR der/ART Schule/NN und/KON im/APPRART Studium/NN war/VAFIN der/ART Rucksack/NN meistens/ADV bis/APPR zum/APPRART bersten/ADJA mit/APPR BÃ¼chern/NN gefÃ¼llt/VVPP ,/$, jetzt/ADV benutze/VVFIN ich/PPER das/ART gute/ADJA StÃ¼ck/NN auf/APPR dem/ART Weg/NN zur/APPRART Arbeit/NN ."                                                                
 [3] " Das/ART Volumen/NN -LRB-/TRUNC 30/CARD Liter/NN -RRB-/TRUNC ist/VAFIN enorm/ADJD und/KON lÃ¤sst/VVFIN sich/PRF ,/$, dank/APPR der/ART Form/NN ,/$, besonders/ADV fÃ¼r/APPR BÃ¼cher/NN und/KON Schreibutensilien/NN ideal/ADJD nutzen/VVINF ."

score 1 · Accepted Answer

这就是你所追求的吗？

# input
r <- "Ich/PPER habe/VAFIN meinen/PPOSAT Berkeley/NN jetzt/ADV seit/APPR 11/CARD Jahren/NN im/APPRART fast/ADV tÃ¤glichen/ADJA Einsatz/NN ./$. In/APPR der/ART Schule/NN und/KON im/APPRART Studium/NN war/VAFIN der/ART Rucksack/NN meistens/ADV bis/APPR zum/APPRART bersten/ADJA mit/APPR BÃ¼chern/NN gefÃ¼llt/VVPP ,/$, jetzt/ADV benutze/VVFIN ich/PPER das/ART gute/ADJA StÃ¼ck/NN auf/APPR dem/ART Weg/NN zur/APPRART Arbeit/NN !/$. Das/ART Volumen/NN -LRB-/TRUNC 30/CARD Liter/NN -RRB-/TRUNC ist/VAFIN enorm/ADJD und/KON lÃ¤sst/VVFIN sich/PRF ,/$, dank/APPR der/ART Form/NN ,/$, besonders/ADV fÃ¼r/APPR BÃ¼cher/NN und/KON Schreibutensilien/NN ideal/ADJD nutzen/VVINF ./$."

# function to split sentences at commas, periods and other punctuation marks
# really we're just splitting at /$ in the string
r.listOfSent <- unlist(strsplit(r, "\\$."))

# output
[1] "Ich/PPER habe/VAFIN meinen/PPOSAT Berkeley/NN jetzt/ADV seit/APPR 11/CARD Jahren/NN im/APPRART fast/ADV tÃ¤glichen/ADJA Einsatz/NN ./"                                      
[2] " In/APPR der/ART Schule/NN und/KON im/APPRART Studium/NN war/VAFIN der/ART Rucksack/NN meistens/ADV bis/APPR zum/APPRART bersten/ADJA mit/APPR BÃ¼chern/NN gefÃ¼llt/VVPP ,/"
[3] " jetzt/ADV benutze/VVFIN ich/PPER das/ART gute/ADJA StÃ¼ck/NN auf/APPR dem/ART Weg/NN zur/APPRART Arbeit/NN !/"                                                             
[4] " Das/ART Volumen/NN -LRB-/TRUNC 30/CARD Liter/NN -RRB-/TRUNC ist/VAFIN enorm/ADJD und/KON lÃ¤sst/VVFIN sich/PRF ,/"                                                         
[5] " dank/APPR der/ART Form/NN ,/"                                                                                                                                              
[6] " besonders/ADV fÃ¼r/APPR BÃ¼cher/NN und/KON Schreibutensilien/NN ideal/ADJD nutzen/VVINF ./"

如果这不正确，请编辑您的问题以显示您想要的输出示例。

更新感谢 alex 和 Blue Magister 的一些澄清评论，以下是生成所需输出的方法：

# function to split the string on the literal $.
r.listOfSent  <- strsplit(r, "/$.", fixed=TRUE)

# which gives
[[1]]
[1] "Ich/PPER habe/VAFIN meinen/PPOSAT Berkeley/NN jetzt/ADV seit/APPR 11/CARD Jahren/NN im/APPRART fast/ADV tÃ¤glichen/ADJA Einsatz/NN ."                                                                                                                                                      
[2] " In/APPR der/ART Schule/NN und/KON im/APPRART Studium/NN war/VAFIN der/ART Rucksack/NN meistens/ADV bis/APPR zum/APPRART bersten/ADJA mit/APPR BÃ¼chern/NN gefÃ¼llt/VVPP ,/$, jetzt/ADV benutze/VVFIN ich/PPER das/ART gute/ADJA StÃ¼ck/NN auf/APPR dem/ART Weg/NN zur/APPRART Arbeit/NN !"
[3] " Das/ART Volumen/NN -LRB-/TRUNC 30/CARD Liter/NN -RRB-/TRUNC ist/VAFIN enorm/ADJD und/KON lÃ¤sst/VVFIN sich/PRF ,/$, dank/APPR der/ART Form/NN ,/$, besonders/ADV fÃ¼r/APPR BÃ¼cher/NN und/KON Schreibutensilien/NN ideal/ADJD nutzen/VVINF ."

regex - 使用 R 将 POS 标记的文本向量/因子拆分为句子 - 正则表达式

1 回答 1

Related

Reference