我正在使用优秀的tidytext
包来标记几个段落中的句子。例如,我想采取以下段落:
“我完全相信达西先生没有缺陷。他自己拥有它,毫不掩饰。”
并将其标记为两个句子
- “我完全相信达西先生没有缺陷。”
- “他自己拥有它,毫不掩饰。”
但是,当我使用默认的句子标记器时,tidytext
我得到了三个句子。
代码
df <- data_frame(Example_Text = c("I am perfectly convinced by it that Mr. Darcy has no defect. He owns it himself without disguise."))
unnest_tokens(df, input = "Example_Text", output = "Sentence", token = "sentences")
结果
# A tibble: 3 x 1
Sentence
<chr>
1 i am perfectly convinced by it that mr.
2 darcy has no defect.
3 he owns it himself without disguise.
什么是tidytext
用于标记句子的简单方法,但不会遇到常见缩写(例如“先生”)的问题?或“博士” 被解释为句尾?