有两种一般类型的用于存储图形的容器:
真正的图形数据库:例如Neo4J、agamemnon、GraphDB和AllegroGraph;这些不仅存储了一个图,而且他们还理解一个图是,例如,您可以查询这些数据库,例如,从节点 X 到节点 Y 的最短路径之间有多少节点?
静态图容器:Twitter 适应 MySQL 的 FlockDB 是这里最著名的示例。这些数据库可以很好地存储和检索图形;但是要查询图形本身,您必须首先从数据库中检索图形,然后使用库(例如 Python 的优秀 Networkx)来查询图形本身。
我在下面讨论的基于 redis 的图形容器属于第二类,尽管 redis 显然也非常适合第一类容器,redis-graph 证明了这一点,redis-graph是一个非常小的 python 包,用于在 redis 中实现图形数据库。
redis在这里可以很好地工作。
Redis是一个适合生产使用的重型、耐用的数据存储,但它也很简单,可以用于命令行分析。
Redis 与其他数据库的不同之处在于它具有多种数据结构类型;我在这里推荐的是哈希数据类型。使用这种 redis 数据结构,您可以非常接近地模仿“字典列表”,这是一种用于存储图形的传统模式,其中列表中的每个项目都是一个边缘字典,键控到这些边缘源自的节点。
你需要先安装redis和python客户端。DeGizmo博客有一个出色的“启动和运行”教程,其中包括安装两者的分步指南。
安装 redis 及其 python 客户端后,启动一个 redis 服务器,您可以这样做:
您现在应该在 shell 窗口中看到服务器日志文件的尾部
>>> import numpy as NP
>>> import networkx as NX
>>> # start a redis client & connect to the server:
>>> from redis import StrictRedis as redis
>>> r1 = redis(db=1, host="localhost", port=6379)
在下面的片段中,我存储了一个四节点图;下面的每一行都在 redis 客户端上调用hmset并存储一个节点和连接到该节点的边(“0” => 无边,“1” => 边)。(当然,在实践中,您会在一个函数中抽象出这些重复调用;这里我将展示每个调用,因为这样可能更容易理解。)
>>> r1.hmset("n1", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
True
>>> r1.hmset("n2", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
True
>>> r1.hmset("n3", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
True
>>> r1.hmset("n4", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
True
>>> # retrieve the edges for a given node:
>>> r1.hgetall("n2")
{'n1': '1', 'n2': '0', 'n3': '0', 'n4': '1'}
现在该图已持久化,从 redis 数据库中检索它作为 NetworkX 图。
有很多方法可以做到这一点,下面分两个*步骤*完成:
将 redis 数据库中的数据提取到邻接矩阵中,实现为 2D NumPy 数组;然后
使用 NetworkX
内置函数将其直接转换为 NetworkX 图:
简化为代码,这两个步骤是:
>>> AM = NP.array([map(int, r1.hgetall(node).values()) for node in r1.keys("*")])
>>> # now convert this adjacency matrix back to a networkx graph:
>>> G = NX.from_numpy_matrix(am)
>>> # verify that G in fact holds the original graph:
>>> type(G)
<class 'networkx.classes.graph.Graph'>
>>> G.nodes()
[0, 1, 2, 3]
>>> G.edges()
[(0, 1), (0, 2), (0, 3), (1, 3), (2, 3), (3, 3)]
当你结束一个 redis 会话时,你可以像这样从客户端关闭服务器:
>>> r1.shutdown()
redis 在关闭之前保存到磁盘,因此这是确保所有写入都被持久化的好方法。
那么redis数据库在哪里呢?它以默认文件名存储在默认位置,即主目录中的dump.rdb。
要更改此设置,请编辑redis.conf文件(包含在 redis 源代码分发中);转到以下开头的行:
# The filename where to dump the DB
dbfilename dump.rdb
将 dump.rdb 更改为您想要的任何内容,但保留 .rdb 扩展名。
接下来,要更改文件路径,请在 redis.conf 中找到这一行:
# Note that you must specify a directory here, not a file name
下面的行是 redis 数据库的目录位置。编辑它,让它背诵你想要的位置。保存您的修订并重命名此文件,但保留 .conf 扩展名。您可以将此配置文件存储在您希望的任何位置,只需在启动 redis 服务器时在同一行提供此自定义配置文件的完整路径和名称:
所以下次你启动一个redis服务器时,你必须这样做(在shell提示符下:
$> cd /usr/local/bin # or the directory in which you installed redis
$> redis-server /path/to/redis.conf
最后,Python 包索引列出了一个专门用于在 redis 中实现图形数据库的包。这个包叫做redis-graph,我没用过。