我有一个关于将 ALBERT 与 SQuAD 2.0 huggingface-transformers 脚本一起使用的问题。
在 github 页面中,没有关于如何使用 ALBERT 运行脚本的具体说明,因此我使用了与使用 BERT 运行脚本相同的规范。然而,最终获得的结果是 (exact_match = 30.632527583593028, f1 = 36.36948708435092),与 BERT 实现的 (f1 = 88.52, exact_match = 81.22) 相去甚远,并且报告在 github 页面上。所以我认为我可能做错了什么。
这是我在命令行中运行的代码:
python run_squad.py \
--model_type albert \
--model_name_or_path albert-base-v2 \
--do_train --do_eval \
--train_file train-v2.0.json \
--predict_file dev-v2.0.json \
--per_gpu_train_batch_size 5 \
--learning_rate 3e-5 \
--num_train_epochs 2.0 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir /aneves/teste2/output/
这个和变形金刚页面上的唯一区别是model_name,他们使用'bert_base_uncased',而per_gpu_train_batch_size是12,但由于我的GPU内存限制,我不得不使用5。
我是在运行脚本时忘记了某些选项,还是因为 per_gpu_train_batch_size 设置为 5 而不是 12 而获得了结果?
谢谢!