我需要训练(微调)NER 标记分类器来识别我们的自定义标记。我发现的最简单的方法是: Token Classification with W-NUT Emerging Entities
但是现在我遇到了一个问题 - 计划是遵循: HuggingFace in Spark NLP - BERT Sentence.ipynb,但是当我尝试时:
model.save_pretrained(<path on DBFS>)
我收到文件写入错误。据我了解,这是因为 transformers/keras 无法在 DBFS 等分布式文件系统上运行
有什么解决方法吗?
我无法将训练从数据块中移开,因为我正在使用数据库中的数据(实体)来创建训练文件
PS。也许我可以只使用 spark nlp 做同样的事情?How-prefarably 使用相同的“仅标签”格式?