4

谁能提供一些示例代码或提示,说明如何将 1MB CSV 节点和另外 1MB CSV 边导入运行在 Cassandra 上的 Titan 图数据库?

我有通过 Gremlin 导入的小 CSV 文件,但这似乎不适合大文件。

我已经看到 Faunus 可以做到这一点,但如果可能的话,我想避免花几天时间来设置它。

看起来 BatchGraph 可能是要走的路(https://github.com/tinkerpop/blueprints/wiki/Batch-Implementation),但该示例似乎不完整。

4

1 回答 1

6

我的问题在https://groups.google.com/forum/#!topic/aureliusgraphs/ew9PJVxa8Xw得到了回答:

1) gremlin 脚本适用于 1mb 的导入 (Stephen Mallette)

2) BatchGraph 代码 (Daniel Kuppitz)

先决条件:

echo "alice,32"         > /tmp/vertices.csv
echo "bob,33"          >> /tmp/vertices.csv
echo "alice,knows,bob"  > /tmp/edges.csv

在 Gremlin REPL 中:

config = new BaseConfiguration()
config.setProperty("storage.backend", "inmemory")

g = TitanFactory.open(config)
bg = new BatchGraph(g, VertexIDType.STRING, 1000)

new File("/tmp/vertices.csv").each({ line ->
  (username, age) = line.split(",")
  user = bg.addVertex("user::" + username)
  ElementHelper.setProperties(user, ["username":username,"age":age.toInteger()])
})

new File("/tmp/edges.csv").each({ line ->
  (source, label, target) = line.split(",")

  v1 = bg.getVertex("user::" + source)
  v2 = bg.getVertex("user::" + target)

  bg.addEdge(null, v1, v2, label)
})

bg.commit()
于 2013-09-25T16:27:03.880 回答