1

我已使用tagPOS将语音的一部分标记为字符串 现在我想取消标记字符串并恢复为以前的状态。

library(openNLP)
str <- "this is the a demo string. Which is used to show tagPOS capability.
And I want to untagged the tagged sentence.
Kindly help to do this."
tagged_str <-  tagPOS(str)
print(tagged_str)

输出:

"this/DT is/VBZ the/DT a/DT demo/NN string./NNwhich/WDT is/VBZ used/VBN to/TO show/VB tagPOS/NNS能力。/.and/CC I/PRP想要/ VBP to/TO untagged/VB the/DT tagged/JJ 句。/NN 请/RB 帮助/VB to/TO 做/VB 这个。/."

期望的输出:

这是一个演示字符串。用于显示 tagPOS 能力。我想取消标记标记的句子。请帮忙做这件事。”

4

1 回答 1

1

这是一种可能的解决方案:

paste(sapply(strsplit(tagged_str, "/|\\s"), "[", c(TRUE, FALSE)), collapse = " ")

编辑:

根据您的新要求。有点不同的方法:

paste(unlist(strsplit(tagged_str, "/[[:upper:]]*\\s|/\\.")), collapse = " ")
于 2013-07-17T11:26:08.997 回答