elasticsearch - 在 HAYSTACK 中加载模型时出现错误“NoneType”对象没有属性“转储”

Question

我试图在 HAYSTACK FARMReader 中加载“bert-base-multilingual-uncased”并得到错误：

(huyenv) PS D:\study\DUANCNTT2\HAYSTACK\haystack_demo> & d:/study/DUANCNTT2/HAYSTACK/haystack_demo/huyenv/Scripts/python.exe d:/study/DUANCNTT2/HAYSTACK/haystack_demo/main.py 05/ 21/2021 00:12:58

信息 - faiss.loader - 加载 faiss。2021 年 5 月 21 日 00:12:58 - 信息 - faiss.loader - 加载 faiss。05/21/2021 00:12:59 - INFO - farm.modeling.prediction_head - 使用从https://www.github.com/nvidia/apex安装的 apex 可以获得更好的速度。2021 年 5 月 21 日 00:13:00 - 信息 - faiss.loader - 加载 faiss。2021 年 5 月 21 日 00:13:00

信息 - faiss.loader - 加载 faiss。2021 年 5 月 21 日 00:13:01 - 信息 - 弹性搜索 - HEAD http://localhost:9200/ [状态：200 请求：0.018s] 2021 年 5 月 21 日 00:13:01 - 信息 - 弹性搜索 - HEAD http ://localhost:9200/cv [status:200 request:0.005s] 05/21/2021 00:13:01 - INFO - elasticsearch - GET http://localhost:9200/cv [status:200 request:0.009s ] 2021 年 5 月 21 日 00:13:01-信息-elasticsearch

PUT http://localhost:9200/cv/_mapping [status:200 request:0.041s] 05/21/2021 00:13:01 - INFO - elasticsearch - HEAD http://localhost:9200/label [status:200请求：0.008s] 05/21/2021 00:13:01 - 信息 - farm.utils - 使用设备：CPU 05/21/2021 00:13:01

INFO - farm.utils - GPU 数量：0 05/21/2021 00:13:01 - INFO - farm.utils - 分布式训练：错误 05/21/2021 00:13:01 - INFO

farm.utils - 自动混合精度：无初始化 BertForQuestionAnswering 时未使用 bert-base-multilingual-uncased 的模型检查点的某些权重：['cls.predictions.bias', 'cls.predictions.transform.dense.weight' , 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight' , 'cls.predictions.transform.LayerNorm.bias']

如果您从在另一个任务上训练的模型的检查点或使用另一个架构（例如从 BertForPreTraining 模型初始化 BertForSequenceClassification 模型）的检查点初始化 BertForQuestionAnswering，这是预期的。

如果您从您希望完全相同的模型的检查点初始化 BertForQuestionAnswering（从 BertForSequenceClassification 模型初始化 BertForSequenceClassification 模型），这不是预期的。BertForQuestionAnswering 的一些权重没有从 bert-base-multilingual-uncased 的模型检查点初始化，而是新初始化：['qa_outputs.weight', 'qa_outputs.bias'] 您可能应该在下游任务上训练这个模型能够将其用于预测和推理。2021 年 5 月 21 日 00:13:21 - 警告 - farm.utils - ML 日志记录已关闭。不会将任何参数、指标或工件记录到 MLFlow。2021 年 5 月 21 日 00:13:21 - 信息 - farm.utils - 使用设备：CPU 05/21/2021 00:13:21 - 信息 - farm.utils - GPU 数量：0 2021 年 5 月 21 日 00： 13:21 - 信息 - 农场。

farm.utils - 自动混合精度：无 2021 年 5 月 21 日 00:13:21 - 信息 - farm.infer - 让 3 个并行工作人员进行推理 ... 2021 年 5 月 21 日 00:13:21 - 信息 - farm.infer - 0 0 0 05/21/2021 00:13:21 - 信息 - farm.infer - /w\ /w\ /w\ 05/21/2021 00:13:21 - 信息 - farm.infer - /'\ / \ /'\ 05/21/2021 00:13:21 - INFO - farm.infer - 异常被忽略：<function Pool。del at 0x000001BBA1DC9C10> Traceback（最近一次调用最后一次）：文件“C:\Users\Admin\AppData\Local\Programs\Python\Python38\lib\multiprocessing\pool.py”，第 268 行，在del 文件“C:\ Users\Admin\AppData\Local\Programs\Python\Python38\lib\multiprocessing\queues.py"，第 362 行，放入 AttributeError: 'NoneType' object has no attribute 'dumps'

这是我的 main.py 文件：

从 haystack.preprocessor.cleaning 导入 clean_wiki_text 从 haystack.preprocessor.utils 导入 convert_files_to_dicts、fetch_archive_from_http 从 haystack.reader.farm 导入 FARMReader 从 haystack.reader.transformers 导入 TransformersReader 从 haystack.utils 导入 print_answers

从 haystack.document_store.elasticsearch 导入 ElasticsearchDocumentStore

document_store = ElasticsearchDocumentStore(host="localhost", username="", password="", index="cv", embedding_dim=768, embedding_field="embedding")

从 haystack.retriever.sparse 导入 ElasticsearchRetriever 检索器 = ElasticsearchRetriever(document_store=document_store)

reader = FARMReader(model_name_or_path='bert-base-multilingual-uncased')

注意：我的 elasticsearch 服务器已成功启动！

score 1 · Accepted Answer

似乎是 Windows 上的多处理问题。您可以像这样禁用多处理FARMReader：

...
reader = FARMReader(model_name_or_path='bert-base-multilingual-uncased', num_processes=0)

另请参阅文档以获取更多详细信息。

elasticsearch - 在 HAYSTACK 中加载模型时出现错误“NoneType”对象没有属性“转储”

1 回答 1

Related

Reference