我正在尝试通过 Py2Neo 批量导入数百万个节点。我不知道哪个更快,BatchWrite
或cipher.Transaction
,但后者似乎是最好的选择,因为我需要拆分我的批次。但是,当我尝试执行一个简单的事务时,我收到了一个奇怪的错误。
蟒蛇代码:
session = cypher.Session("http://127.0.0.1:7474/db/data/") #error also w/o /db/data/
def init():
tx = session.create_transaction()
for ngram, one_grams in data.items():
tx.append("CREATE "+str(n)+":WORD {'word': "+ngram+", 'rank': "+str(ngram_rank)+", 'prob': "+str(ngram_prob)+", 'gram': '0gram'}")
tx.execute() # line 69 in the error below
错误:
Traceback (most recent call last):
File "Ngram_neo4j.py", line 176, in <module>
init(rNgram_file="dataset_id.json")
File "Ngram_neo4j.py", line 43, in init
data = probability_items(data)
File "Ngram_neo4j.py", line 69, in probability_items
tx.execute()
File "D:\datasets\GOOGLE~1\virtenv\lib\site-packages\py2neo\cypher.py", line 224, in execute
return self._post(self._execute or self._begin)
File "D:\datasets\GOOGLE~1\virtenv\lib\site-packages\py2neo\cypher.py", line 209, in _post
raise TransactionError(error["code"], error["status"], error["message"])
KeyError: 'status'
我尝试捕捉异常:
except cypher.TransactionError as e:
print("--------------------------------------------------------------------------------------------")
print(e.status)
print(e.message)
但永远不会被调用。(也许是我的错误?)
使用 graph_db.create({"node:" node}) 进行常规插入确实有效,但速度非常慢(250 万个节点需要 36 小时)请注意,数据集由一系列 JSON 文件组成,每个文件的结构深度为 5 级。我想批量处理最后两个级别(每批大约 100 到 20.000 个节点)
- - 编辑 - -
我正在使用 Py2Neo 1.6.1、Neo4j 2.0.0。目前在 Windows 7 上(还有 OSX Mav.、CentOS 6)