我正在尝试访问 spaCy BERT 字典,但我收到了来自模型的奇怪输出。例如对于en_core_web_lg
模型,我可以像这样提取约 130 万个令牌
nlp = spacy.load("en_core_web_lg")
tokens = [t for t in nlp.vocab]
当我对en_trf_bertbaseuncased_lg
模型做同样的事情时,我只得到 478 个令牌,
nlp = spacy.load("en_trf_bertbaseuncased_lg")
tokens = [t for t in nlp.vocab]