问题标签 [data-integration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
json - JSON路径停止器
有一个父字段称为“价格”,但也有一个深度嵌入的子字段也称为“价格”(第一个可能是 MSRP)。如何让 JSONpath 仅解析父路径?
使用 "$..price" 产生:
我只希望它显示
不太确定如何。
etl - 最可配置的 ETL 工具
我正在寻找最适合以下标准的 ETL 工具。
- 支持 MongoDB
- 接受元数据作为输入(或接受文件并即时构建其元数据)
- 提供可配置的映射。(映射可以从外部开发中定义,使用一些文件 ot 表)
请推荐适合上述需求的工具。
pentaho - Pentaho DI (Kettle) 中的 REST 客户端步骤说我没有 API 权限
我正在使用 Pentaho DI (Kettle) 的 5.1 版,并且在“Rest Client”步骤中遇到问题。该步骤正确且成功地执行,但结果显示我没有使用 API 的权限。我已经在另一个工具中确认我确实获得了许可。我在身份验证选项卡上输入了我的登录信息,并建立了我的 URL 以包含我的令牌。
我错过了什么?
附加信息:我在“HTTP Post”步骤中遇到了同样的问题。从 API 返回的状态是 403。
mapping - 使用 pentaho 数据集成映射两个表列
我正在使用 pentaho 数据集成,我可以在其中获取表列,但是在编辑时我希望将列保存为已编辑但它给出了一些错误,能够保存在 .txt 文件中并希望作为下一次转换的输入。
如何使用 pentaho 数据集成映射两个表列?
hive - Pentaho 中的 Hive 数据集成错误
我正在使用 Bigdata Lite3.0、Pentaho 5.1、CDH5.0。我想使用 Pentaho 连接 Hive 表。
在尝试连接时,我遇到了以下错误。
主机名:本地主机端口:8888 数据库名称:默认
等待你的回复
问候, 吉腾
transformation - PDI:将 SELECT 语句的结果返回到数据流
使用 PDI (Kettle) 我正在使用一个CSV Input
和Table Output
步骤来填充我的数据库的入口阶段。这很好用,但是,我还想确保刚刚插入的数据满足某些条件,例如字段不为 NULL 等。
通常这将是数据库约束的工作,但是,即使数据有故障,我们也希望将数据保留在数据库中(出于调试目的。尝试调试 .csv 文件很痛苦......)。因为它只是一个临时表,它不会对完整性等造成任何麻烦。
所以为了做到这一点,我写了一些SELECT Count(*) as test123 ...
语句来立即显示是否有问题并且很容易处理(如果 test123 的值为 0 一切都很好,否则需要中止工作)。
我正在使用Execute SQL Statements
PDI 转换中的一个步骤执行这些语句。我希望结果会自动传递给我的数据流,因此我还使用了一个Copy rows to result
步骤将其传递给正在执行的作业。
这是最有可能出现问题的地方。我认为 SELECT 语句的结果不会自动传递给我的数据流,因为当我Simple evaluation
在主要工作中使用变量${test123}
(我认为这将通过执行隐式创建SELECT Count(*) as test123 ...
)时,我永远不会得到预期的结果。
我在 PDI 文档中真的找不到任何关于这个问题的线索,所以我希望这里有人对 PDI 有一些经验并且可能能够提供帮助。如果仍有不清楚的地方,只需提示一下,我将编辑帖子以提供更多信息。
此致
编辑:这是我主要工作的一个简单模型:
开始 --> 加载数据(转换)--> 检查数据(转换)--> 简单评估 --> ...
java - PDI 勺步骤中的 HTML 抓取(用户定义的 java 类)
您好正在使用该HTTP Client
步骤获取网站的源代码。我需要刮掉一行的特定部分。
示例行:<a href="....." ......>TEXT I WANT</a>
所以我想我会在 PDI 中使用 UDJC 并首先将文本块分成几行,String[] lines = code.split("\n+");
然后循环遍历数组并使用 if 条件(即正则表达式检查)查看我是否有正确的行。
(我也在一个没有 PDI 的纯 Java IDE 中尝试这个)虽然我从来没有受到打击。知道如何解决这个问题吗?或者有没有更快更简单的方法来获得我想要的块?
hadoop - Pentaho 数据集成与 Hive 连接
我正在使用Pentaho 数据集成,我正在尝试连接到Hive,但是当我尝试这样做时,我遇到了错误.....
使用设置为 localhost,端口为 8888,数据库为默认值....
请帮忙,等待您的回复......
问候, Jiten Pansara
pentaho - 为什么 Pentaho 数据集成无法读取表上的新字段?
我正在尝试将记录从几个表复制到一个新表(report_table)中。但是当我在kettle 上创建转换时,我需要在report_table 中添加一个新字段。添加字段后,水壶不会显示它。当我尝试“输入字段映射”时,它没有显示在“目标字段”上为什么水壶不能读取该字段?
没有什么特别的。我只是放了“输入表”并给它一个查询以从我的资源表中进行选择。然后我放“输出表”并在输入和输出表之间给出一个“跳”。然后当我选择“输入字段映射”时,水壶无法从目标表中读取所有字段。
任何的想法。
dynamics-crm - 抄写员:没有得到正确的结果
我Sage ERP MAS 200
正在Microsoft Dynamics CRM
使用Scribe
.
我有 5 个 Scribe 作业链,我正在尝试计算各种值并在 CRM(目标)中更新/插入:
(1) 作业 1:该作业只是将 MAS(源)的 AR_Customer 表中的所有数据传输到 CRM(目标)中的同一张表。此外,对于少数新字段(yeartilldate sales、monthtilldate sales、preyear sales、monthlytrend),它插入值 0。
(2) 工作 2:本月到日期或期间到日期: 这个计算月到日期销售额或期间到日期销售额的值并在 CRM 中更新。这些帐户的值未更新,该值已插入为 0(在作业 1 中)。
(3) 工作 3:上一年: 计算 CRM 中上一年销售额和更新的值。这些帐户的值未更新,该值已插入为 0(在作业 1 中)。
(4) 工作 4:年初至今: 计算 CRM 中年初至今的销售额和更新值。这些帐户的值未更新,该值已插入为 0(在作业 1 中)。
(5) 工作 5:MonthlyTrend: 此任务计算 MonthlyTrend 的值并在 CRM 中更新。这些帐户的值未更新,该值已插入为 0(在作业 1 中)。
问题:
对于作业 1、2、3 和 4,根本没有问题发生。问题发生在工作 5 中。我的工作有 7 个步骤。任何步骤都不会调用第 7 步(CRM 管理员)(即,工作流中没有将数据传递到此步骤的步骤)。但是,由于某些原因,我仍然没有删除它。
我的工作(帐户)中的第 6 步应该进行帐户更新。我有相同的公式来计算第 6 步和第 7 步的 MonthlyTrend 的值。
以下是观察结果: 1> 对于那些流量从未达到步骤 6 和 7 的记录:对于步骤 6 和 7,MonthlyTrend 的值正在得到正确计算(当我单击“测试作业”时,我可以看到这些值)。 2> 对于那些流量从未到达步骤 7,但到达步骤 6 的记录:MonthlyTrend 的值正在为步骤 7 正确计算,但未为步骤 6 计算(值保持为 #NULL)。
此外,对于第 6 步,当我尝试给出常量值(如 0 或 8)时,即使在上述情况 2 中也会显示。
请让我知道为什么会发生这种情况。