1

我正在尝试通过 Py2Neo 批量导入数百万个节点。我不知道哪个更快,BatchWritecipher.Transaction,但后者似乎是最好的选择,因为我需要拆分我的批次。但是,当我尝试执行一个简单的事务时,我收到了一个奇怪的错误。

蟒蛇代码:

session = cypher.Session("http://127.0.0.1:7474/db/data/") #error also w/o /db/data/

def init():
    tx = session.create_transaction()

    for ngram, one_grams in data.items():
         tx.append("CREATE "+str(n)+":WORD {'word': "+ngram+", 'rank': "+str(ngram_rank)+", 'prob': "+str(ngram_prob)+", 'gram': '0gram'}")
         tx.execute()  # line 69 in the error below

错误:

Traceback (most recent call last):
  File "Ngram_neo4j.py", line 176, in <module>
    init(rNgram_file="dataset_id.json")
  File "Ngram_neo4j.py", line 43, in init
    data = probability_items(data)
  File "Ngram_neo4j.py", line 69, in probability_items
    tx.execute()
  File "D:\datasets\GOOGLE~1\virtenv\lib\site-packages\py2neo\cypher.py", line 224, in execute
    return self._post(self._execute or self._begin)
  File "D:\datasets\GOOGLE~1\virtenv\lib\site-packages\py2neo\cypher.py", line 209, in _post
    raise TransactionError(error["code"], error["status"], error["message"])
KeyError: 'status'

我尝试捕捉异常:

 except cypher.TransactionError as e:
        print("--------------------------------------------------------------------------------------------")
        print(e.status)
        print(e.message)

但永远不会被调用。(也许是我的错误?)

使用 graph_db.create({"node:" node}) 进行常规插入确实有效,但速度非常慢(250 万个节点需要 36 小时)请注意,数据集由一系列 JSON 文件组成,每个文件的结构深度为 5 级。我想批量处理最后两个级别(每批大约 100 到 20.000 个节点)

- - 编辑 - -

我正在使用 Py2Neo 1.6.1、Neo4j 2.0.0。目前在 Windows 7 上(还有 OSX Mav.、CentOS 6)

4

2 回答 2

2

您看到的问题是由于 Neo4j 服务器报告 Cypher 事务错误的方式在最后一刻发生了变化。Py2neo 1.6 是针对 M05/M06 构建的,当 RC1/GA 中的一些功能发生变化时,Py2neo 在一些地方出现了问题。

这已针对 Py2neo 1.6.2 ( https://github.com/nigelsmall/py2neo/issues/224 ) 修复,但我还不知道何时有机会完成并发布此版本。

于 2014-01-09T08:20:10.887 回答
1

您使用的是什么 neo4j 和 py2neo 版本?

您应该为您的创建语句使用参数。

你能检查服务器登录data/logsdata/graph.db/messages.log错误吗?

如果您有这么多数据要插入,那么直接批量插入可能更有意义?

见: http: //neo4j.org/develop/import

我为此编写了两个工具:

于 2014-01-09T00:31:47.850 回答