我想为高棉语(一种单词之间没有空格的语言)添加一个开源 Java 分词程序。开发者很久没做这件事了,我也无法联系到他们了解详情(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0/)。假设该列表是从高棉词典创建的,我想重新创建该文件以包含更多单词。
谁能确定字典的格式(我相信它是某种类型的特里)?这是前几行:
0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1
有谁知道我将如何制作一个新的(我有一个很大的词表,但我不知道如何把它变成这种格式)。
谢谢!