-1

如何在使用 FastText 模型时从我的领域特定 pdf 中查找词汇表外 (OOV) 单词列表?我需要用我的领域特定词微调 FastText。

4

1 回答 1

0

FastText 模型已经能够为 OOV 词生成向量。

因此,不一定需要在 PDF 中列出特定的 OOV 单词,也不需要像 FastText 模型那样“微调”。

您只需向它询问向量,它就会返回它们。从相关培训材料中训练出来的完整词汇的向量可能是最好的,而从与培训材料共享的词片段(字符 n-gram)中为 OOV 词合成的向量只是粗略的猜测——比没什么,但不是很好。

(要训练一个好的词向量需要许多不同的词使用示例,并与许多“对等”词的类似好示例交错——传统上,在一个统一、平衡的训练课程中。)

如果你认为你需要做更多,你应该扩展你的问题,详细说明你为什么认为这是必要的,以及你试图匹配的现有先例(在 docs/tutorials/papers 中)。

我还没有看到一种有据可查的方法来随意微调或逐步扩展现有 FastText 模型的已知词汇。需要进行大量专家权衡,在许多情况下,简单地训练具有足够数据的新模型可能是一种更安全的方法。

任何寻求这种微调的人都应该清楚地了解:

  • 他们的增量数据可能能够添加到现有模型中的内容
  • 他们将使用什么流程/代码,以及为什么期望该流程/代码通过其特定的起始模型和新数据产生有意义的结果
  • 如何评估任何此类过程的结果以确保与替代方案相比,额外的微调步骤是有益的
于 2021-07-27T17:02:41.560 回答