“orientdb-etl”的相关标签问题

0 投票

1 回答

36 浏览

orientdb - 打印在 oetl.sh 期间创建的顶点 RId

我想知道是否可以打印在 oetl.sh 脚本期间创建的顶点的消除，我觉得它可能有助于更快地从 Java 代码创建边缘。

2016-08-29T07:21:29.187

0 投票

0 回答

47 浏览

orientdb - 只有来自节点 1 的数据在 2 节点 OrientDB 集群中可见

我按照以下步骤创建了一个 2 节点 OrientDB 集群。但是在分发它时，只有一个节点中存在的数据是可访问的。请你帮我调试这个问题。OrientDB 版本为 2.2.6

涉及的步骤：

在 ETL 工具中利用 plocal 模式，将部分数据存储在节点 1 中，另一部分存储在节点 2 中。存储的数据实际上只属于一类顶点。（从控制台检查数据时，数据已正确注入）。
然后以分布式模式执行两个节点，只能访问来自一台机器的数据。

default-distributed-db-config.json 文件指定如下：

为名为 address 的顶点创建了两个簇，即 address 和 address_1。机器orientslave1中的数据使用ETL工具存储到集群地址_1中，同样机器orientmaster中的数据存储到集群地址中。（我已确保这两个集群 ID 在创建时都不同）

但是当这两台机器以分布式方式连接在一起时，集群地址_1中的数据只可见

ETL json 附在下面：

请让我知道，如果我做错了什么

orientdb orientdb2.2 orientdb-etl

2016-08-29T15:00:42.087

0 投票

1 回答

214 浏览

orientdb - 使用 ETL 将 CSV 数据加载到包含 SPATIAL 索引的 OrientDB

我有兴趣从一些包含 WGS84 Lat/Long 空间坐标的 CSV 文件中将一些数据加载到 OrientDB 中。

我正在使用 OrientDB 2.2.8 并将lucene 空间模块添加到我的 $ORIENTDB_HOME/lib 目录中。

我正在使用 ETL 将数据加载到数据库中，并且想添加空间索引，但我不确定如何执行此操作。

假设我的 CSV 文件具有以下列：

标签（字符串）
纬度（浮点数）
经度（浮点数）

我在我的 ETL 中试过这个：

但它不起作用。我收到以下错误消息：

有没有人研究过通过 ETL 创建空间索引？我在这方面看到的大部分内容都是使用 Java 或通过直接查询。

提前感谢您的任何建议。

orientdb orientdb2.2 orientdb-etl

2016-08-29T18:40:58.950

0 投票

2 回答

121 浏览

orientdb - 如何在 Sharding 模式下设置分布式 orientDB (Enterprise edition 2.2.9)

我正在为我的项目使用 Oriednt DB enterprose 2.2.9 版本。我现在已经设置了 2 个服务器集群并在分布式环境中实现了分片。但是当我使用传送器从 RDBMS 中提取数据时，数据没有分发。它只是在两台服务器中复制数据。所以你能帮我设置一个分布式环境吗

我的配置文件如下：-

default-distributed-db-config.json:- { "replication": true, "clusters": { "internal": { "replication": false }, "index": { "replication": false }, "ODistributedConflict" : { "replication": false }, "*": { "replication": true, "writeQuorum": 2, "partitioning": { "strategy": "round-robin", "default": 0, "partitions" : [ [ "manoj" ], [ "vishnu" ] ] } } } }

hazelcast.xml orientdb orientdb 假假假 5 1 1 1 1

orientdb orientdb2.2 orientdb-etl

2016-09-20T07:18:07.413

0 投票

0 回答

40 浏览

orientdb - 切换 OrientDB Teleporter 源模式

我正在测试 OrientDB，看看我们是否可以更改我们的 RDBM 并切换到它。我看到 Teleporter 工具可以从生产服务器获取数据并使用数据制作初始图表。我遇到的问题是我需要连接到一个服务，将架构/用户更改/切换到另一个。我们与对生产只有只读访问权限的用户连接，并在 other_users/us_mpa 中查看数据

后端是 oracle rac，连接字符串是到服务的。

Teleporter 目前正在连接到数据库，但它只导入我用户下的表（这是正确的行为），我需要告诉它切换到另一个模式。

谢谢

orientdb orientdb-etl

2016-10-11T14:31:14.507

0 投票

1 回答

55 浏览

orientdb - 通过 ETL 在同一类中创建边

1) 在数据库中准备好具有 ItemId 和 Name 的 Class Items。2）CSV文件：两列，

...

.. ETC。

问题：

如何定义 ETL json 文件以在 ItemId1 和 col#2 中的所有 ItemId 之间以及 ItemId2 与其 col#2-peers 之间创建边缘。

orientdb orientdb2.2 orientdb-etl

user5598747

2016-10-26T11:27:16.917

0 投票

1 回答

86 浏览

orientdb - 是否可以使用他们的 ETL 工具将逐行 JSON 导入 OrientDB？

我有一堆文件（每个约 10Gb），其中每一行代表一个 JSON 对象。我想以流模式导入它们，但现在似乎不支持它（OrientDB v.2.2.12）。有什么解决方法吗？这种情况下推荐的方法是什么？

orientdb orientdb2.2 orientdb-etl

2016-11-10T10:05:21.557

0 投票

0 回答

68 浏览

orientdb - 将边缘导入 SSD 上的 plocal 时出现东方 ETL 性能问题

我的目标是在有大约 50M 顶点的图中导入 25M 边。目标时间：

当前的导入速度约为 150 边/秒。远程连接的速度约为 100 边/秒。

提取 20,694,336 行（171 行/秒）- 20,694,336 行 -> 加载 20,691,830 个顶点（171 个顶点/秒）总时间：35989762ms [0 个警告，4 个错误]

提取 20,694,558 行（156 行/秒）- 20,694,558 行-> 加载 20,692,053 个顶点（156 个顶点/秒）总时间：35991185ms [0 个警告，4 个错误]

提取 20,694,745 行（147 行/秒）- 20,694,746 行-> 加载 20,692,240 个顶点（147 个顶点/秒）总时间：35992453ms [0 个警告，4 个错误]

提取 20,694,973 行（163 行/秒）- 20,694,973 行-> 加载 20,692,467 个顶点（162 个顶点/秒）总时间：35993851ms [0 个警告，4 个错误]

提取 20,695,179 行（145 行/秒）- 20,695,179 行-> 加载 20,692,673 个顶点（145 个顶点/秒）总时间：35995262ms [0 个警告，4 个错误]

我试图在 etl 配置中启用并行，但看起来它在 Orient 2.2.12 中完全被破坏（与 2.1 中的多线程更改不一致？）并且在上面的日志中只给了我 4 个错误。哑并行模式（运行 2 个以上的 ETL 进程）也无法用于 plocal 连接。

我的配置：

数据样本：

{"_ref":"1072308006473","with_to":"person","with_id":"010703814320","_type":"is.stakeholder","value_of_share":10000.0} {"_ref":"1075837000095", "with_to":"person","with_id":"583600656732","_type":"is.stakeholder","value_of_share":15925.0} {"_ref":"1075837000095","with_to":"person"," with_id":"583600851010","_type":"is.stakeholder","value_of_share":33150.0}

服务器的规格是：Google Cloud 上的实例、PD-SSD、6CPU、18GB RAM。

顺便说一句，在同一台服务器上，我设法在使用远程连接导入顶点时达到约 3k/秒（它仍然太慢，但对于我当前的数据集来说是可以接受的）。

问题是：是否有任何可靠的方法可以提高导入速度，比如每秒插入 10k 或至少 5k？我不想关闭索引，它仍然是数百万条记录，而不是数十亿条记录。

更新

几个小时后，性能继续恶化。

提取 23,146,912 行（56 行/秒）- 23,146,912 行-> 加载 23,144,406 个顶点（56 个顶点/秒）总时间：60886967ms [0 个警告，4 个错误]

提取 23,146,981 行（69 行/秒）- 23,146,981 行-> 加载 23,144,475 个顶点（69 个顶点/秒）总时间：60887967ms [0 个警告，4 个错误]

提取 23,147,075 行（39 行/秒）- 23,147,075 行-> 加载 23,144,570 个顶点（39 个顶点/秒）总时间：60890356ms [0 个警告，4 个错误]

orientdb orientdb2.2 orientdb-etl

2016-11-12T10:31:20.860

0 投票

1 回答

163 浏览

orientdb - 使用 ETL 从 CSV 文件将 OPoint 数据导入 OrientDB 2.2.x

这与我之前的问题有关

带有子选择的空间查询（我想出了一个）
OrientDB 空间查询以查找彼此相距 X 公里内的所有对（仍在寻找有用的答案）

针对 (2)，我正在考虑修改我的 nazca geoglyph 数据集以使用 WKT 版本以与更新的OrientDB 2.2.x 空间索引功能保持一致。

我的输入 CSV 文件nazca_lines_wkt.csv是这样的：

我创建了一个空的 PLOCAL 数据库，nazca-wkt.orientdb并定义了一个 GeoGlyphWKT 顶点类：

我有两个用于 oetl 脚本的 .json 文件：

nazca_lines_wkt.json

commonGeoGlyphWKT.json

我使用以下命令运行 oetl：

但这失败了，输出如下：

我确定我错过了一些愚蠢的事情......有没有人能够使用 ETL 导入包含点、多边形等的 WKT 字符串的 CSV 文件？

任何帮助表示赞赏！

orientdb orientdb2.2 orientdb-etl

2016-12-07T21:22:02.440

0 投票

1 回答

121 浏览

orientdb - 使用 CSV 导入啤酒数据库时出错

我有最新的社区版 2.2.17。使用 csv 导入啤酒数据库时，导入啤酒时出错。（类别，样式等都可以很好地导入）。错误如下：

我用来导入的命令与文档中给出的相同：./oetl.sh /temp/openbeer/beers.json

（目录名称更改为我系统中的实际名称）。

有人可以建议。

这是我的 beers.json 文件：

谢谢， DBuserN

orientdb orientdb2.2 orientdb-etl

2017-03-12T12:32:51.147

问题标签 [orientdb-etl]

Reference