本文包含用于嘈杂通道中拼写错误的混淆矩阵。它描述了如何根据条件属性更正错误。
条件概率计算在第 2 页左栏。在脚注 4,第 2 页,左栏,作者说:“字符矩阵可以很容易地复制,因此从附录中省略。” 我无法弄清楚它们如何被复制!
如何复制它们?我需要原始语料库吗?或者,作者是否意味着他们可以从论文本身的材料中重新计算?
本文包含用于嘈杂通道中拼写错误的混淆矩阵。它描述了如何根据条件属性更正错误。
条件概率计算在第 2 页左栏。在脚注 4,第 2 页,左栏,作者说:“字符矩阵可以很容易地复制,因此从附录中省略。” 我无法弄清楚它们如何被复制!
如何复制它们?我需要原始语料库吗?或者,作者是否意味着他们可以从论文本身的材料中重新计算?
查看论文,您只需要使用语料库来计算它们,可以是相同的语料库,也可以是与您的应用程序相关的语料库。
在复制矩阵时,请注意它们隐含地定义了两个不同chars
的矩阵:一个向量和一个 n×n 矩阵。对于每个字符x
,向量包含字符在语料库中出现chars
的次数的计数。x
对于每个字符序列xy
,矩阵chars
包含该序列在语料库中出现的次数的计数。
chars[x]
x
表示在向量中的查找;表示在矩阵中chars[x,y]
查找序列。xy
请注意chars[x]
= 的chars[x,y]
每个值的总和y
。
请注意,它们的计数均基于 1988 年 AP Newswire 语料库(可从 LDC 获得)。如果您不能使用他们确切的语料库,我认为使用同一类型的另一个文本(即另一个新闻专线语料库)并缩放您的计数以使其适合原始数据是不合理的。也就是说,如果一个文本足够相似,一个给定字符的频率不应该在另一个文本之间变化太大,所以如果你有一个包含 2200 万字新闻专线的语料库,你可以计算那个文本中的字符并且然后将它们加倍以接近其原始计数。