delphi - 为什么 Synopse 断字代码给出与 TeX 不同的结果？

Question

这个问题遵循上一个问题，但有所不同。Synopse 的 delphi hyphenation非常快，并且建立在使用 TeX hyphenation 的 OpenOffice libhnj 库上。

一个简单的测试是：

如果我输入“发音”，则 Synopse 断字输出“pro=nun=ci=ation”（4 个可能的连字符或音节）。//（不是 'pro=nun=ci=a=tion'，5 个连字符或音节）。

我阅读了 2 篇关于在音节化中使用的 Tex 连字符算法的论文（此处和此处）。作者表示音节的准确率约为 95%。我测试了 Synopse hyphenation 仅用于计算CMU Pronouncing Dictionary上的音节，但准确率只有 53% 左右。

为什么结果显着不同？

我以稍微详细的方式重现了我的方法。

我解析 CMU 发音词典以计算所有单词数。CMU dic 是这样的：

PRONOUNS  P R OW1 N AW0 N Z
PRONOVOST  P R OW0 N OW1 V OW0 S T
PRONTO  P R AA1 N T OW0
PRONUNCIATION  P R OW0 N AH2 N S IY0 EY1 SH AH0 N
PRONUNCIATION(1)  P R AH0 N AH2 N S IY0 EY1 SH AH0 N

我会有这个结果：

PRONOUNS=2
PRONOVOST=3
PRONTO=2
PRONUNCIATION(1)=5 // will be ignored
PRONUNCIATION=5   // use this one

与 Synopse 连字符库相比，带括号的单词将被忽略。它们是替代或次要发音（变体）。

同样，我将使用连字符库来计算 CMU 词典中每个单词的音节数。然后我比较两者，看看有多少匹配。不同音节数的单词记录如下：

...

94814 cmu PROMULGATED=4 | PROMULGATED=3 Synopse Hyphenation
94821 cmu PRONGER=2 | PRONGER=1 Synopse Hyphenation
94829 cmu PRONOUNCES=3 | PRONOUNCES=2 Synopse Hyphenation
94833 cmu PRONTO=2 | PRONTO=1 Synopse Hyphenation
94835 cmu PRONUNCIATION=5 | PRONUNCIATION=4 Synopse Hyphenation

...

CMU的总行数为123611（不包括带括号的行和无意义的单词行，如引号行'（'）。两者的相同单词的总不同音节数：57870。

CMU可能不是音节数的标准。在本次测试中，(123611-57870)/123611=53.183%。这与作者在上述论文中所说的准确率有很大不同。当然，他们使用另一个数据库 (CELEX) 进行测试。为什么结果如此不同？

Synopse 连字库非常快。我想进一步了解这是否是由于模式文件（用于连字符的 dic 文件最初来自 OpenOffice 中使用的 libhnj）。还是论文的作者使用了不同的字典文件？

score 1 · Accepted Answer

简而言之，我认为我们在SPIRE 2009论文中报告的结果与此处报告的结果之间的准确性差异如此之大的原因是因为我们训练了该方法，而不是使用通过先前训练生成的模式（根据我可以收集，就是你在这里做的）。

我们如何进行训练以获得我们的模式在我们论文的第三页（pg.176）中有简要描述，在我的论文第 4.3 节中有更详细的描述，你可以在这里找到： http ://web.cs.dal.ca /~adsett/Adsett_SyllAlgs_2008.pdf

delphi - 为什么 Synopse 断字代码给出与 TeX 不同的结果？

1 回答 1

Related

Reference