我注意到在技术中,人们将文本 URL、数字和日期转换为 . 手套数据集是否已针对这些占位符进行嵌入训练。我可以将它们直接输入数据集中吗?
问问题
75 次
1 回答
0
您可以将任何您想要的代币提供给 nito 一个 word2vec/glove 培训课程。
但是,通常具有很多内部变化的标记,但可能很少或分散的语义含义(或每个单独变体的示例太少)被省略或合并为合成替换标记。
例如,每个数字都可能变成'__NUM__'
. (或者,放入像'__1DIGITNUM__'
,'__2DIGITNUM__'
等范围内的桶中)并且日期可能变成'__DATE__'
. (或者,像'__1700s__'
,'__1990s'
等一样分桶)
任何特定的预训练模型可能做了什么需要直接与模型的创建者进行检查,或者通过探测模型中的标记。您当然应该对您打算针对预先训练的向量集查找的任何实体/令牌提供类似的规范化。
因此,您的设置完全取决于您,如果进行自己的培训,或者取决于特定项目做出的先前决定,因此只能对确定的特定项目/数据集/代码库负责。
于 2020-05-12T00:33:33.527 回答