0

我是 Neo4j 和数据分析新手。我正在寻找编程方式来格式化从 Active Directory 收集的数据,以准备将其导入 Neo4j。现在,我正在使用 PowerBI 和 DAX Studios 以我需要的方式清理数据,但这并不高效,并且仍然需要大量手动干预。我也在尝试使用 OpenRefine 来做这件事,但我想看看专家们是怎么想的。

我的终极愿景是能够获取原始文件并将其上传到 Web 前端,使用一些黑魔法过程将数据格式化为我需要的样子,然后将其上传到新的 Neo4j 后端进行分析。一旦数据在后端,我就可以走了。我有一个收集器进程来进入环境并收集原始信息。这只是从 A 点到 B 点的旅程。感谢您提供任何帮助。谢谢!

4

2 回答 2

1

关于数据清洗的话题。当我从 .csv 文件中导入数据时,我经常使用:apoc.map.clean 函数来删除空值 http://neo4j-contrib.github.io/neo4j-apoc-procedures/3.5/utilities/map-functions/

此外,在解析大型 CSV 文件时,我经常删除不需要的密钥

LOAD CSV WITH HEADERS FROM 'file:///segment_data.csv' as line FIELDTERMINATOR ','
WITH line LIMIT 1
WITH apoc.map.removeKeys(line, [i in keys(line) WHERE NOT i contains 'cust_']) as custKeys
WITH custKeys
RETURN apoc.map.clean(custKeys,[], ["","NA"]) AS output
于 2020-02-10T07:16:51.287 回答
0

我会用水壶。它具有从大量数据源中读取数据并写入 Neo4j 的连接器。

https://medium.com/neo4j/getting-started-with-kettle-and-neo4j-32ff15b991f9

https://github.com/neo4j-examples/kettle-plugin-examples

于 2020-02-10T00:17:27.737 回答