word-embedding - 如何将 BERT 预训练嵌入与我自己的新数据集一起使用？

Question

我的数据集和 NLP 任务与作者预先训练他们的模型（https://github.com/google-research/bert#pre-training-with-bert）的大型语料库有很大不同，所以我不能直接微调。是否有任何示例代码/GitHub 可以帮助我用自己的数据训练 BERT？我希望得到像手套这样的嵌入。

非常感谢！

score 1 · Accepted Answer

是的，您可以获得 BERT 嵌入，就像使用extract_features.py脚本的其他词嵌入一样。您可以选择需要输出的层数。用法很简单，您必须在文本文件中每行保存一个句子并将其作为输入传递。输出将是一个 JSONL 文件，为每个令牌提供上下文嵌入。

脚本与文档的用法在以下位置提供：https ://github.com/google-research/bert#using-bert-to-extract-fixed-feature-vectors-like-elmo

word-embedding - 如何将 BERT 预训练嵌入与我自己的新数据集一起使用？

1 回答 1

Related

Reference