假设我有以下内容:
- 句子列表(没有标点符号)
- 一长串单词(没有标点符号)
我的目标是将这个字符串分割成句子块,不包括不构成句子的单词。
我打算为此考虑一个特别的解决方案,但觉得这可能是一个众所周知的问题(我的意思是一个问题,建议实施一个有效的现有算法,如最短路径问题等......)
那么,有没有算法呢?
编辑: 例句:
hello
how are you
what do you want
are you hungry
do you want to eat
are you thirsty
do you want to drink
what is your name
good morning
good night
示例输入字符串:
do do how are you eat
所以,how are you
应该是输出。
(输入样本可能很奇怪,因为它是语音识别器输出)
谢谢。