28

正如问题中所说,我正在寻找一种免费和/或开源的中文文本分割算法,我确实理解这是一项非常难以解决的任务,因为其中涉及很多歧义。我知道有 google 的 API,但它是一个黑匣子,即没有多少关于它正在做什么的信息通过。

4

4 回答 4

30
于 2011-05-19T03:29:45.250 回答
8

Stanford segment using CRF algorithmn.

It's under GPL

link page is : http://nlp.stanford.edu/software/segmenter.shtml

于 2011-08-31T02:41:33.037 回答
1

ICU has details on universal text segmentation - http://userguide.icu-project.org/boundaryanalysis

于 2014-04-27T00:02:55.373 回答
0

粗略的谷歌搜索“文本分割中文开源”揭示了这个库,它可能是也可能不是你正在寻找的......:

http://sourceforge.net/projects/ktdictseg/

结果也暗示了一些寻找开源库的替代场所:

  • 搜索可能适用于中文的开源搜索实现。
  • 寻找一个可能带有中文的开源抄袭检测实现。
于 2011-05-19T03:07:30.377 回答