所以我构建了一个句子标记器,它将段落分成句子、单词和字符……每一个都是一种数据类型。但是句子系统是一个两阶段系统,因为像'。. 。把它扔掉,感觉它一次只写一个字母,但如果它是 '...' 没有空格,它就可以正常工作。
所以输出有点拼接,但如果我能对它做一些二次处理,它会完美地工作。所以这就是我的问题所在......我不知道如何编写一个系统,允许我将每个没有结束句标点符号的句子附加到前一个句子而不会丢失任何东西。
以下是输出的示例以及我需要它的示例:
一些被拼接的句子...
并有一个延续
这不能被美国混淆
在那里面
最后一句话...
一个缩写结束了这句话!
因此,不以正常句尾分隔符结尾的句子对象,即“.”、“?”、“!” 需要附加到下一个句子...直到有一个带有真正句尾分隔符的句子。让这变得艰难的另一件事是'。. 。算作一个延续,而不是一个句子的结尾。所以这也需要附加。
这就是它需要的样子:
一些被拼接的句子......并且有一个延续。
这不能被美国混淆
在最后一句话中……一个缩写结束了这句话!
这是我正在使用的代码:
last = []
merge = []
for s in stream:
if last:
old = last.pop()
if '.' not in old.as_utf8 and '?' not in old.as_utf8 and '!' not in old.as_utf8:
new = old + s
merge.append(new)
else:
merge.append(s)
last.append(s)
所以这个方法有一些问题......
它只将 1 个句子附加到另一个句子,但如果需要添加 2 个或 3 个,它不会继续附加。
如果它没有任何标点符号,它会删除第一句话。
它不处理'。. 。作为延续。我知道我没有为此写任何东西,那是因为我不完全确定如何解决这个问题,句子以缩写结尾,因为我可以数出有多少“。” 在句子中,但它真的会被“美国”抛弃,因为这算作 3 个句点。
所以我已经__add__
为句子类编写了一个方法,所以你可以这样做sentence + sentence
,这可以作为一种将一个附加到另一个的方法。
任何帮助将不胜感激。如果有任何不清楚的地方,请告诉我,我会尽我最大的努力去实现它。