所以,我发现并且目前正在使用斯坦福解析器,它非常适合分割句子。我们的大部分句子都来自 AP,因此它非常适合该任务。
以下是问题:
- 它消耗大量内存(600M 很多)
- 它真的搞砸了正文的格式,我必须在以后制作很多边缘案例。(文档预处理器 API 调用不允许指定 ascii/utf8 引号——它们立即转到乳胶样式,缩略词(显然)被分成不同的单词,并且虚假的空格被放在不同的地方)
为此,我已经编写了多个补丁来弥补我真正不应该做的事情。
基本上它的使用与拆分句子的问题一样大。
我还有哪些其他选择?任何其他 NLP 类型的框架可能会有所帮助?
我最初的问题是能够以很高的概率检测句子边缘。