我正在处理大约 17 毫米的处方声明,每个声明都包含以下字段(子集):
claim_id (one record per claim)
patient_id
drug_id
provider_id
我的节点与上面的字段相同,关系是:
patient - [:FILLED] -> prescription
provider - [:WROTE] -> prescription
prescription -[:CONTAINS] -> drug
输入文件没有顺序,即patient / provider / drug
可以出现在文件中的任何位置。
我正在使用 py2neo、CypherMERGE
和 1,000 行的批量进行处理,以确保没有重复的患者、提供者或药物被创建。
Problem
:性能 - 每批大约需要一分钟(4 个节点 + 4 个关系 X 1,000),并且随着图表的增长,时间也在增加。
Question
: 有没有更好的方法?对非 python 建议开放。