问题标签 [load-csv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
csv - Neo4j Cypher - 使用 LOAD CSV 创建节点和设置标签
我正在尝试使用 LOAD CSV 创建节点,并将标签设置为 CSV 中的值。那可能吗?我正在尝试类似的东西:
...但我得到一个无效的语法错误。有没有办法做到这一点?
neo4j - Neo4J 从 Cypher 加载 CSV 抛出“未知错误”或 DeadlockDetected
我正在评估使用 Neo4J Community 2.1.3 来存储概念列表和它们之间的关系。我正在尝试使用 Web 界面中的 Cypher 将我的示例测试数据(CSV 文件)加载到 Neo4J 中,如在线手册中所述。
我的数据看起来像这样:
概念.csv
关系.csv
依此类推……对于我的示例,我有大约 17K 的概念和大约 16M 的关系。按照手册,我启动了 Neo4J 服务器,并将其输入到 Cypher:
这工作正常并加载了我的概念。然后我试图加载我的关系。
这将运行一个小时左右,但总是停止:
- “未知错误”(没有其他信息!),或
- “Neo.TransientError.Transaction.DeadlockDetected”带有详细消息,例如“LockClient[695] 无法等待资源 RWLock[RELATIONSHIP(572801), hash=267423386] since => LockClient[695] <-[:HELD_BY]- RWLock[NODE(4145), hash=1224203266] <-[:WAITING_FOR]- LockClient[691] <-[:HELD_BY]- RWLock[RELATIONSHIP(572801), hash=267423386]"
它会在加载可能 200-300K 关系后停止。我在relationships.csv 上做了一个“sort | uniq”,所以我很确定没有重复。我查看了 data/log 中的日志文件,但没有发现错误消息。
有没有人见过这个?顺便说一句,我不介意失去一小部分关系,所以如果我可以关闭 ACID 事务,我会很高兴。我还想避免在这个阶段编写代码(使用 Java API)。我只是想加载我的数据来尝试一下。有没有办法做到这一点?
我的完整数据集将包含数百万个概念,可能还有数亿个关系。有谁知道 Neo4J 是否可以处理这么多数据?
谢谢你。
csv - 通过 REST 发送带有 LOAD CSV 的 Cypher 脚本对我不起作用
我正在尝试通过 REST 发送此密码脚本:
但我回来了:
如果我在 Neo4J 浏览器中使用相同的嵌入式查询,它就可以正常工作。以下工作正常:
我回来了:
有人知道我做错了什么吗?如果它不起作用,为什么我会得到空错误?
csv - 在 Cypher + Neo4j 中加载 CSV 失败“LoadExternalResourceException:无法在以下位置加载外部资源:”
我在运行 Ubuntu 14.04 的企业云服务器上全新安装了 Neo4j 2.1.4 开源。我正在将 CSV 文件导入数据库。我的文件的路径是'/home/username/data-neo4j/node.csv'
下面是我从 Neo4j 命令行工具 neo4j-shell 运行的命令:
LOAD CSV WITH HEADERS FROM "file:///home/username/data-neo4j/node.csv" AS line CREATE (:Node { nid: toInt(line.nid), title: line.title, type: line.type, url: line.url});
这将返回:
LoadExternalResourceException: Couldn't load the external resource at: file:/home/user/data-neo4j/node.csv
这看起来像是一条消息,说它找不到文件。但是,该文件已到位。我什至尝试将文件的权限更改为 755。
我的本地机器上有一个单独的 Neo4j 实例(带有 Neo4j 2.1.2 Enterprise 的 OSX)。鉴于我切换了匹配的路径,该命令在我的本地机器上是成功的。
当我运行 neo4j-shell 时,我注意到一件事,我得到NOTE: Remote Neo4j graph database service 'shell' at port 1337
. 我打开了这个端口,我的命令仍然返回相同的错误信息。
我也通读了这个链接 - 但他们的问题是他们没有上传他们的文件。我的文件已经到位。
csv - neo4j: Cypher LOAD CSV with uuid
I am starting to work with LOAD CSV of Cypher for Neo4J to import larger csv-files into my DB. I would like to add to each imported node a unique ID (uuid) as a property.
My try was:
Unfortunately I receive for each node the same UUID (although its a function that would normally generate the UUID new when called), it looks like the UUID is generated 1 time and then attached to each node while creating the node and parsing the csv-file.
Is there a way to generate a new UUID for each imported csv-line to mark the node?
Thanks for your hints from Balael
csv - 在 Cypher 中,如何修改 LOAD CSV 命令的有效 URL 协议
这个问题有两个部分:
默认情况下,哪些 URL 协议被认为可以有效地为 Cypher 的
LOAD CSV
命令指定资源?- 到目前为止,我已经使用 http 和文件协议成功地将 CSV 文件加载到 Neo4j 中。 对这个无关问题的评论表明 ftp 也可以,但我没有尝试过,因为我没有用例。
配置非标准 URI 协议有哪些实用选项?我遇到了Neo.TransientError.Statement.ExternalResourceFailure: “指定的 URL 无效(未知协议)”。除了挖掘 Neo4j 源之外,如果主机能够使用指定的协议解析资源,是否还有修改此验证/设置的方法?
import - Neo4j 将 csv 导入数据库
我想将出版物从 csv 导入 neo4j。并进行查询,它将选择所有作为出版物作者或至少一位作者的作者。
我有格式为 Author,Publication 的 csv 文件
我使用了这个查询:
导入后我有:
所以我认为作者不是进口的?如何处理?
neo4j - neo4j 加载 csv - 某些部分不起作用
我从 csv 导入时遇到问题。
我在 shell 中运行以下内容,最后一部分(MERGE (e1)-[:NEXT]->(hit))))
永远不会发生。有点沮丧……
每个会话有 x 次点击。我想找到插入会话的最后一次命中,并通过 NEXT 关系将其与新命中连接
PSV 样本:
Session_id|date_time Xxx|2015-01-01T01:00:00 Xxx|2015-02-02T09:00:00 Yyy|2015-03-03T06:00:44
代码:
//........更多合并......
//关系
types - neo4j 在从 csv 导入期间指定数据类型
导入时有没有办法告诉neo4j值的类型?例如,neo4j 是否知道“2015-0104T10:33:44”是日期还是字符串?
谢谢!
neo4j - 加载 csv 合并性能
我在将批量插入 neo4j 时遇到性能问题。
我有一个包含 400k 行的 csv 文件,它产生大约 350 万行,我使用 LOAD CSV 命令,最新版本在 neo4j 上。
我注意到当我使用 Create 语句时,加载大约需要 4 分钟,并且根本没有索引 - 大约 3.5 分钟。
我的第一个问题是,这是否是节点/分钟的正常速率。
现在,我真正的问题是,出于数据完整性的原因,我需要使用合并,而当我使用它时,它甚至可能需要 24 小时,连同索引。
所以另外两个问题是:
是否推荐 LOAD CSV 以获得最佳性能负载,
还有:我能做些什么来解决这个性能问题?
编辑:
这是查询:
示例:session_guid|hit_key_guid|useridguid|session2_guid|PANASONIC|TCP|ANDROID|5.0
session,user,session2,country,tv,transfer_protocol 和 os 具有唯一约束,并且 hit 具有索引
**session1 和 session2 可以有很多点击(1 到 100,平均 5)hit_key_guid 对于每个 csv 行是不同的
它的运行速度非常慢 - 机器非常强大,每 1000 行可能需要长达 10 秒。
还检查了探查器,没有“渴望”
谢谢
里奥