我们正在将基于 MySQL 的 Django 应用程序迁移到 Neo4j。在 MySQL 中,我们有一个 Providers 表和一个 Referrals 表。推荐表只有一个 provider_from_id、provider_to_id 和一个计数列。它代表从一个提供者到另一个提供者的推荐。
我们所有的 4+ 百万供应商都已转移到 Neo4j。我们计划将引用表示为 Neo4j 中不同提供者节点之间的关系。
这就是问题所在,有超过 40,000,000 行的推荐,Neo4j 似乎在创建关系时表现非常糟糕。这是我们用来创建关系的脚本。以它运行的速度,需要2个多月的时间。有没有更好的方法来传输这些数据?
graph_db = neo4j.GraphDatabaseService()
# Link to providers index
providers_index = graph_db.get_or_create_index(neo4j.Node, "Providers")
# Let's start transferring!
while True:
total_so_far = num_transferred + num_orphaned
referrals = Referral.objects.all().order_by('id')[total_so_far:total_so_far+1000000]
if not referrals:
break
for referral in referrals:
# We need to get the nodes for both providers (assuming they exist)
provider_from = providers_index.get("npi", referral.provider_from_id)
provider_to = providers_index.get("npi", referral.provider_to_id)
if provider_from and provider_to:
# We have matches for both providers, let's create the relationship
graph_db.create((provider_from[0], "REFERRED", provider_to[0], {"count": referral.num_referrals}))