-3

我正在从事句子分割项目,并且正在搜索用于句子分割的 SRX 文件(Segmentation Rules Exchange)。我试图找到用于英语、法语、德语、西班牙语、意大利语的句子分割的 srx(分段规则交换)文件。但我失败了:(

有没有人可以帮助我,因为我不想花时间写这些文件?

这是这个文件的一个例子:

<languagerule languagerulename="English">
<rule break="no">
<beforebreak>\b[nN]o\.\s</beforebreak>
<afterbreak>\p{N}</afterbreak>
</rule>
<rule break="no">
<beforebreak>\b(pp|[Vv]iz|i\.?\s*e|[Vvol]|[Rr]col|maj|Lt|[Ff]ig|[Ff]igs|[Vv]iz|[Vv]ols|[Aa]pprox|[Ii]ncl|Pres|[Dd]ept|min|max|[Gg]ovt|lb|ft|c\.?\s*f|vs)\.\s</beforebreak>
<afterbreak>[^\p{Lu}]|I</afterbreak>
</rule>
4

1 回答 1

2

LanguageTool 在https://github.com/languagetool-org/languagetool/blob/master/languagetool-core/src/main/resources/org/languagetool/resource/segment.srx有一个涵盖这些语言的文件(免责声明:我'我是 LanguageTool 的作者)

于 2014-08-20T16:16:30.417 回答