问题标签 [orientdb-etl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
36 浏览

orientdb - 打印在 oetl.sh 期间创建的顶点 RId

我想知道是否可以打印在 oetl.sh 脚本期间创建的顶点的消除,我觉得它可能有助于更快地从 Java 代码创建边缘。

0 投票
0 回答
47 浏览

orientdb - 只有来自节点 1 的数据在 2 节点 OrientDB 集群中可见

我按照以下步骤创建了一个 2 节点 OrientDB 集群。但是在分发它时,只有一个节点中存在的数据是可访问的。请你帮我调试这个问题。OrientDB 版本为 2.2.6

涉及的步骤:

  • 在 ETL 工具中利用 plocal 模式,将部分数据存储在节点 1 中,另一部分存储在节点 2 中。存储的数据实际上只属于一类顶点。(从控制台检查数据时,数据已正确注入)。

  • 然后以分布式模式执行两个节点,只能访问来自一台机器的数据。

default-distributed-db-config.json 文件指定如下:

为名为 address 的顶点创建了两个簇,即 address 和 address_1。机器orientslave1中的数据使用ETL工具存储到集群地址_1中,同样机器orientmaster中的数据存储到集群地址中。(我已确保这两个集群 ID 在创建时都不同)

但是当这两台机器以分布式方式连接在一起时,集群地址_1中的数据只可见

ETL json 附在下面:

请让我知道,如果我做错了什么

0 投票
1 回答
214 浏览

orientdb - 使用 ETL 将 CSV 数据加载到包含 SPATIAL 索引的 OrientDB

我有兴趣从一些包含 WGS84 Lat/Long 空间坐标的 CSV 文件中将一些数据加载到 OrientDB 中。

我正在使用 OrientDB 2.2.8 并将lucene 空间模块添加到我的 $ORIENTDB_HOME/lib 目录中。

我正在使用 ETL 将数据加载到数据库中,并且想添加空间索引,但我不确定如何执行此操作。

假设我的 CSV 文件具有以下列:

  • 标签(字符串)
  • 纬度(浮点数)
  • 经度(浮点数)

我在我的 ETL 中试过这个:

但它不起作用。我收到以下错误消息:

有没有人研究过通过 ETL 创建空间索引?我在这方面看到的大部分内容都是使用 Java 或通过直接查询

提前感谢您的任何建议。

0 投票
2 回答
121 浏览

orientdb - 如何在 Sharding 模式下设置分布式 orientDB (Enterprise edition 2.2.9)

我正在为我的项目使用 Oriednt DB enterprose 2.2.9 版本。我现在已经设置了 2 个服务器集群并在分布式环境中实现了分片。但是当我使用传送器从 RDBMS 中提取数据时,数据没有分发。它只是在两台服务器中复制数据。所以你能帮我设置一个分布式环境吗

我的配置文件如下:-

default-distributed-db-config.json:- { "replication": true, "clusters": { "internal": { "replication": false }, "index": { "replication": false }, "ODistributedConflict" : { "replication": false }, "*": { "replication": true, "writeQuorum": 2, "partitioning": { "strategy": "round-robin", "default": 0, "partitions" : [ [ "manoj" ], [ "vishnu" ] ] } } } }

hazelcast.xml orientdb orientdb 假 假 假 5 1 1 1 1

0 投票
0 回答
40 浏览

orientdb - 切换 OrientDB Teleporter 源模式

我正在测试 OrientDB,看看我们是否可以更改我们的 RDBM 并切换到它。我看到 Teleporter 工具可以从生产服务器获取数据并使用数据制作初始图表。我遇到的问题是我需要连接到一个服务,将架构/用户更改/切换到另一个。我们与对生产只有只读访问权限的用户连接,并在 other_users/us_mpa 中查看数据

后端是 oracle rac,连接字符串是到服务的。

Teleporter 目前正在连接到数据库,但它只导入我用户下的表(这是正确的行为),我需要告诉它切换到另一个模式。

谢谢

0 投票
1 回答
55 浏览

orientdb - 通过 ETL 在同一类中创建边

1) 在数据库中准备好具有 ItemId 和 Name 的 Class Items。2)CSV文件:两列,

...

.. ETC。

问题:

如何定义 ETL json 文件以在 ItemId1 和 col#2 中的所有 ItemId 之间以及 ItemId2 与其 col#2-peers 之间创建边缘。

0 投票
1 回答
86 浏览

orientdb - 是否可以使用他们的 ETL 工具将逐行 JSON 导入 OrientDB?

我有一堆文件(每个约 10Gb),其中每一行代表一个 JSON 对象。我想以流模式导入它们,但现在似乎不支持它(OrientDB v.2.2.12)。有什么解决方法吗?这种情况下推荐的方法是什么?

0 投票
0 回答
68 浏览

orientdb - 将边缘导入 SSD 上的 plocal 时出现东方 ETL 性能问题

我的目标是在有大约 50M 顶点的图中导入 25M 边。目标时间:

当前的导入速度约为 150 边/秒。远程连接的速度约为 100 边/秒。

  • 提取 20,694,336 行(171 行/秒)- 20,694,336 行 -> 加载 20,691,830 个顶点(171 个顶点/秒)总时间:35989762ms [0 个警告,4 个错误]
  • 提取 20,694,558 行(156 行/秒)- 20,694,558 行-> 加载 20,692,053 个顶点(156 个顶点/秒)总时间:35991185ms [0 个警告,4 个错误]
  • 提取 20,694,745 行(147 行/秒)- 20,694,746 行-> 加载 20,692,240 个顶点(147 个顶点/秒)总时间:35992453ms [0 个警告,4 个错误]
  • 提取 20,694,973 行(163 行/秒)- 20,694,973 行-> 加载 20,692,467 个顶点(162 个顶点/秒)总时间:35993851ms [0 个警告,4 个错误]
  • 提取 20,695,179 行(145 行/秒)- 20,695,179 行-> 加载 20,692,673 个顶点(145 个顶点/秒)总时间:35995262ms [0 个警告,4 个错误]

我试图在 etl 配置中启用并行,但看起来它在 Orient 2.2.12 中完全被破坏(与 2.1 中的多线程更改不一致?)并且在上面的日志中只给了我 4 个错误。哑并行模式(运行 2 个以上的 ETL 进程)也无法用于 plocal 连接。

我的配置:

数据样本:

{"_ref":"1072308006473","with_to":"person","with_id":"010703814320","_type":"is.stakeholder","value_of_share":10000.0} {"_ref":"1075837000095", "with_to":"person","with_id":"583600656732","_type":"is.stakeholder","value_of_share":15925.0} {"_ref":"1075837000095","with_to":"person"," with_id":"583600851010","_type":"is.stakeholder","value_of_share":33150.0}

服务器的规格是:Google Cloud 上的实例、PD-SSD、6CPU、18GB RAM。

顺便说一句,在同一台服务器上,我设法在使用远程连接导入顶点时达到约 3k/秒(它仍然太慢,但对于我当前的数据集来说是可以接受的)。

问题是:是否有任何可靠的方法可以提高导入速度,比如每秒插入 10k 或至少 5k?我不想关闭索引,它仍然是数百万条记录,而不是数十亿条记录。

更新

几个小时后,性能继续恶化。

  • 提取 23,146,912 行(56 行/秒)- 23,146,912 行-> 加载 23,144,406 个顶点(56 个顶点/秒)总时间:60886967ms [0 个警告,4 个错误]
  • 提取 23,146,981 行(69 行/秒)- 23,146,981 行-> 加载 23,144,475 个顶点(69 个顶点/秒)总时间:60887967ms [0 个警告,4 个错误]
  • 提取 23,147,075 行(39 行/秒)- 23,147,075 行-> 加载 23,144,570 个顶点(39 个顶点/秒)总时间:60890356ms [0 个警告,4 个错误]
0 投票
1 回答
163 浏览

orientdb - 使用 ETL 从 CSV 文件将 OPoint 数据导入 OrientDB 2.2.x

这与我之前的问题有关

  1. 带有子选择的空间查询(我想出了一个)
  2. OrientDB 空间查询以查找彼此相距 X 公里内的所有对(仍在寻找有用的答案)

针对 (2),我正在考虑修改我的 nazca geoglyph 数据集以使用 WKT 版本以与更新的OrientDB 2.2.x 空间索引功能保持一致。

我的输入 CSV 文件nazca_lines_wkt.csv是这样的:

我创建了一个空的 PLOCAL 数据库,nazca-wkt.orientdb并定义了一个 GeoGlyphWKT 顶点类:

我有两个用于 oetl 脚本的 .json 文件:

nazca_lines_wkt.json

commonGeoGlyphWKT.json

我使用以下命令运行 oetl:

但这失败了,输出如下:

我确定我错过了一些愚蠢的事情......有没有人能够使用 ETL 导入包含点、多边形等的 WKT 字符串的 CSV 文件?

任何帮助表示赞赏!

0 投票
1 回答
121 浏览

orientdb - 使用 CSV 导入啤酒数据库时出错

我有最新的社区版 2.2.17。使用 csv 导入啤酒数据库时,导入啤酒时出错。(类别,样式等都可以很好地导入)。错误如下:

我用来导入的命令与文档中给出的相同:./oetl.sh /temp/openbeer/beers.json

(目录名称更改为我系统中的实际名称)。

有人可以建议。

这是我的 beers.json 文件:

谢谢, DBuserN