2

我正在从这个网站学习自然语言处理。

我被困在插值视频中。

教授说:P'(W n | W n-1 , W n-2 ) = λ 1 * P(W n | W n-1 , W n-2 ) + λ 2 * P(W n | W n-1 ) + λ 3 * P(W n )

然后他说:要设置 lambda,你需要一个“保留”的数据集,然后找到使该组数据的概率最大化的 lambda。

这是否意味着您遍历所有可能的数字(无穷大),然后找到其中哪一个使概率最大化?

那是不可能的吧?那么你如何选择lambdas。找到增加概率的 lambda 很容易,找到概率也很容易,但是选择 lambda 是一件大事。

请帮助我选择 lambdas!

先感谢您!!

4

2 回答 2

2

这充其量是一个半受过教育的猜测,但看起来他正在做的是迭代地改进他的函数 P(Wn | Wn-1 , Wn-2),使用该函数的先前估计,以及对 P 的估计(Wn | Wn-1) 和 P(Wn)。他假设新函数是旧函数的加权和,而那些 λ 值就是权重。这些权重的总和必须为 1。

你的工作是找到最好的一组权重。

您解决这类问题,不是通过循环 λ 值(正如您正确直觉的那样),而是通过数学。如果不了解这些函数的结构,很难说更多有用的信息。

如果幸运的话,你可以找到一个相对简单的微积分表达式来做到这一点。如果运气不好,这将是一个相对复杂的过程,涉及(也许)拉格朗日乘数法。它甚至可能没有明显的封闭形式表达,导致各种爬山、期望最大化或其他技术。我真的说不出来。

于 2013-07-10T15:11:23.370 回答
1

根据单词的重要性顺序设置权重,但要确保权重加起来为 1,因为概率不能大于 1。

于 2013-07-18T11:32:48.983 回答