1

我们需要为基于拉丁语的语言编写分段逻辑的测试用例。wrt 我找到了很多网站,文档的分割逻辑规则,与我有一个链接“ http://www.lisa.org/fileadmin/standards/srx20.pdf ”相关,但我们不想使用这个. 现在我们正在寻找可以支持所有拉丁语言的更相关的分词规则,并且可以在分词后使用这些分词规则测试所有可能性,如标点符号、句号、逗号和其他用于基于拉丁语的语言的符号?

感谢期待,Manjushree

4

1 回答 1

0

基于拉丁语的通用分割规则的最佳来源是处理文本分割的 Unicode 标准附件: http ://www.unicode.org/reports/tr29/

尤其参见本附件中句子的切分规则。

于 2010-08-16T07:17:28.200 回答