正如问题中所说,我正在寻找一种免费和/或开源的中文文本分割算法,我确实理解这是一项非常难以解决的任务,因为其中涉及很多歧义。我知道有 google 的 API,但它是一个黑匣子,即没有多少关于它正在做什么的信息通过。
问问题
9917 次
4 回答
30
于 2011-05-19T03:29:45.250 回答
8
Stanford segment using CRF algorithmn.
It's under GPL
link page is : http://nlp.stanford.edu/software/segmenter.shtml
于 2011-08-31T02:41:33.037 回答
1
ICU has details on universal text segmentation - http://userguide.icu-project.org/boundaryanalysis
于 2014-04-27T00:02:55.373 回答
0
粗略的谷歌搜索“文本分割中文开源”揭示了这个库,它可能是也可能不是你正在寻找的......:
http://sourceforge.net/projects/ktdictseg/
结果也暗示了一些寻找开源库的替代场所:
- 搜索可能适用于中文的开源搜索实现。
- 寻找一个可能带有中文的开源抄袭检测实现。
于 2011-05-19T03:07:30.377 回答