当您掩盖一些单词并尝试预测它们时,我知道 BERT 和其他解决方案。但是假设我有一个文本:
Transformer 席卷了自然加工领域,突飞猛进地改变了这个领域。新的、更大的和更好的模型几乎可以在各种任务中出现性能基准。
而且我不能提前告诉 BERT 掩蔽在哪里。我正在寻找一种算法,它可以理解缺失的单词在哪里,然后预测它们。
当您掩盖一些单词并尝试预测它们时,我知道 BERT 和其他解决方案。但是假设我有一个文本:
Transformer 席卷了自然加工领域,突飞猛进地改变了这个领域。新的、更大的和更好的模型几乎可以在各种任务中出现性能基准。
而且我不能提前告诉 BERT 掩蔽在哪里。我正在寻找一种算法,它可以理解缺失的单词在哪里,然后预测它们。
您可以做的是检查文本中的每个位置(我建议从位置 2 开始)比较文本中出现的下一个单词是否是根据模型最可能的下一个单词,如下所示:
“Transformer 席卷了自然加工领域 [...]”
输入:“变压器面具”
比较:面具/“有”
输入:“Transformer has take MASK”
比较:MASK / "the"
输入:“变形金刚戴上了面具”
比较:MASK / "of" - 在这里你可能会有一个非常低的概率。这可以帮助您检查这是否可能是缺少单词的地方。
这篇文章可以帮助您以编程方式实现它:Predicting Missing Words in a sentence - Natural Language Processing Model