我的数据集和 NLP 任务与作者预先训练他们的模型(https://github.com/google-research/bert#pre-training-with-bert)的大型语料库有很大不同,所以我不能直接微调。是否有任何示例代码/GitHub 可以帮助我用自己的数据训练 BERT?我希望得到像手套这样的嵌入。
非常感谢!
我的数据集和 NLP 任务与作者预先训练他们的模型(https://github.com/google-research/bert#pre-training-with-bert)的大型语料库有很大不同,所以我不能直接微调。是否有任何示例代码/GitHub 可以帮助我用自己的数据训练 BERT?我希望得到像手套这样的嵌入。
非常感谢!
是的,您可以获得 BERT 嵌入,就像使用extract_features.py
脚本的其他词嵌入一样。您可以选择需要输出的层数。用法很简单,您必须在文本文件中每行保存一个句子并将其作为输入传递。输出将是一个 JSONL 文件,为每个令牌提供上下文嵌入。
脚本与文档的用法在以下位置提供:https ://github.com/google-research/bert#using-bert-to-extract-fixed-feature-vectors-like-elmo