我正在从事句子分割项目,并且正在搜索用于句子分割的 SRX 文件(Segmentation Rules Exchange)。我试图找到用于英语、法语、德语、西班牙语、意大利语的句子分割的 srx(分段规则交换)文件。但我失败了:(
有没有人可以帮助我,因为我不想花时间写这些文件?
这是这个文件的一个例子:
<languagerule languagerulename="English">
<rule break="no">
<beforebreak>\b[nN]o\.\s</beforebreak>
<afterbreak>\p{N}</afterbreak>
</rule>
<rule break="no">
<beforebreak>\b(pp|[Vv]iz|i\.?\s*e|[Vvol]|[Rr]col|maj|Lt|[Ff]ig|[Ff]igs|[Vv]iz|[Vv]ols|[Aa]pprox|[Ii]ncl|Pres|[Dd]ept|min|max|[Gg]ovt|lb|ft|c\.?\s*f|vs)\.\s</beforebreak>
<afterbreak>[^\p{Lu}]|I</afterbreak>
</rule>