基本上我正在接受一个充满各种标点符号的段落,例如!? . ; " 并将它们拆分成句子。我面临的问题是想出一种方法,将它们拆分成完整的标点符号的句子,同时考虑对话中的引用
例如以下段落:
一天早上,当格里高尔·萨姆萨从噩梦中醒来时,他发现自己在床上变成了一只可怕的害虫。“发生了什么!?” 他问自己。“我不知道。” 萨姆沙说,“也许这是个噩梦。” 他躺在盔甲般的背上,稍微抬起头,就能看到他棕色的腹部,略呈拱形,被拱形分成僵硬的部分。
需要像这样分开
[0] One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.
[1] "What has happened!?" he asked himself.
[2] "I... don't know." said Samsa, "Maybe this is a bad dream."
等等。
目前我只是在使用爆炸
$sentences = explode(".", $sourceWork);
并且仅按句点将其拆分并在末尾附加一个。我知道这与我想要的相去甚远,但我不太确定从哪里开始处理这个问题。如果有人至少能指出我在哪里寻找想法的正确方向,那将是惊人的。
提前致谢!