2

连字符库似乎是在您的应用程序中使用连字符的非常流行且免费的方式。

连字符向量是什么意思?

我正在运行附加到库源代码的示例。示例输出:

hibernate   // input word
030412000   // output hyphenation vector
hi=ber=nate  // hyphen points
 - hi=bernate
 - hiber=nate

向量中的奇数表示连字符点。但是,所有这些值意味着什么?

4

1 回答 1

3

László Németh 在OpenOffice 的文档中详细描述了该算法。

该库使用由 Frank M. Liang 开发的算法(“计算机的 Word Hy-phen-a-tion”):二字、三字和较长模式中的所有字母都被分配了数值,以表明它是“常用的”。 ' 出现连字符的位置(奇数)或“不寻常”位置(偶数)。数字越大,重要性就越大——一个模式几乎永远不会在更大的偶数上被打破,而且几乎总是在更大的奇数上。数字序列是在预连字符的语料库上统计确定的。

请注意,数字表示两个字符之间的位置。一个更好的符号本来是

h i b e r n a t e
 0 3 0 4 1 2 0 0 (0)

(最后一个0已过时)。

于 2014-12-02T10:00:09.930 回答