TL:博士:
我需要找到最有效的 Cypher 查询,它将节点连接到具有某种关系类型的某个节点类型,然后检索这些节点之间的连接,过滤掉前 150 个连接最多的节点,并将它们显示给用户。
我在下面提出了一个使用 APOC 关系属性查询的方法,但我认为它可以提高效率,所以我正在寻找您的建议。
长解释:
在我的数据模型中,我有以下类型的节点:
:Concept
:Context
:User
:Statement
这是用于文本网络分析的,所以基本思想是:Concepts
出现在:Statements
那个属于某个的某个:Context
添加的某个:User
。
它们还具有属性,例如uid
(唯一 ID)和name
(名称)。
每一个:Concept
都以有向关系:Concept
的:TO
类型相互连接。
如果 a:Concept
属于 a:Context
它与:AT
那个有关系:Context
如果 a:Concept
是由 a 创建的:User
,则它通过关系类型连接到该用户:BY
。
我还为关系添加了属性,以便它们显示哪个用户建立了:TO
连接以及它们出现在哪个上下文中。
我需要在特定上下文中获取节点列表及其关系,因此我目前使用类型的 Cypher / APOC 查询:
CALL apoc.index.relationships('TO','user:15229100-b20e-11e3-80d3-6150cb20a1b9')
YIELD rel, start, end
WITH DISTINCT rel, start, end
MATCH (ctx:Context)
WHERE rel.context = ctx.uid
AND (ctx.name="decon" )
RETURN DISTINCT start.uid AS source_id,
start.name AS source_name,
end.uid AS target_id,
end.name AS target_name,
rel.uid AS edge_id,
ctx.name AS context_name,
rel.statement AS statement_id,
rel.weight AS weight
它工作得很好,但是,问题是如果图很大(例如超过 1000 个节点和 5000 个连接),查询它需要很长时间。
所以我希望能够过滤我得到的关系数量。
使用上面的请求很难做到这一点,因为我想过滤掉前 150 个连接最多的节点,我需要先获取数据才能做到这一点。
所以我想也许我应该改变我的请求的逻辑,而不是:
1)查询:Context
我感兴趣的;
2) 获取:Concept
与其连接的所有节点;
3) 找出检索:Concept
到的节点之间的所有关系;
4) 获取前 X (150) 个连接最多:Concept
的节点,忽略其余节点。
5)向用户展示它们。
我尝试了以下查询:
MATCH (ctx:Context{name:'decon',by:'15229100-b20e-11e3-80d3-6150cb20a1b9'})
WITH ctx MATCH (c1:Concept)-[:AT]->(ctx),
(c2:Concept)-[:AT]->(ctx)
WITH c1, c2
MATCH (c1)-[rel:TO]->(c2)
RETURN DISTINCT rel;
但它似乎需要更长的时间。
我还需要过滤掉这些节点之间的关系,使它们只显示某个特定的关系,:User
并且只出现在特定的关系中:Statement
。
任何人都知道我还能尝试什么?
PS 源代码在https://github.com/noduslabs/infranodus/blob/master/lib/entry.js#L573