0

我想为高棉语(一种单词之间没有空格的语言)添加一个开源 Java 分词程序。开发者很久没做这件事了,我也无法联系到他们了解详情(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0/)。假设该列表是从高棉词典创建的,我想重新创建该文件以包含更多单词。

谁能确定字典的格式(我相信它是某种类型的特里)?这是前几行:

0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1

有谁知道我将如何制作一个新的(我有一个很大的词表,但我不知道如何把它变成这种格式)。

谢谢!

4

1 回答 1

1

快速浏览代码后,我有了一个理论。

创建一个SearchTreewhich extends TreeItem。对于字典中的每个单词,调用addWordfrom TreeItem。迭代完成后,调用export. SearchTree使用新文件作为单词输入文件。

此外,khwrdbrk.jar 可能有一个未记录的参数,--create它将从标准输入中读取新树的单词。

同样,这只是一个理论,但如果你测试它会发生什么,请告诉我。

于 2011-01-29T13:47:32.567 回答