问题标签 [data-integration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
15373 浏览

email - 使用 pentaho PDI 发送电子邮件

我想使用 PDI 发送电子邮件。我创建了一份工作并添加了“邮件”元素。有我的参数。

当我运行作业时,我收到错误:Problem while sending message : javax.mail.AuthenticationFailedException

当我将端口更改为 465 时,gmail 拒绝了该消息并向 mygmailusername 发送了一封电子邮件,表明未经授权的登录尝试。

但是我已将 BI 服务器的端口更改为 9090。我不知道这是否也是一个原因。我假设 PDI 以某种方式与 BI 服务器通信,如果它是发送电子邮件的 BI 服务器。请问我怎样才能让它工作?

0 投票
1 回答
114 浏览

database - 将两个数据源与关于相同实体的不同数据相结合的方法

考虑一个场景,我有来自两个不同来源的同一实体的数据。例如,尼康 D3200 相机,尼康5.0 in. (125 mm) x 3.8 in. (96 mm) x 3.1 in. (76.5 mm)亚马逊网站上提到了尺寸3.1 x 3.8 x 5 inches。现在,如果我想将来自两个来源的数据合并到一个表中,我该怎么做呢?如何确认这两个维度实际上是针对同一产品的?对记录链接策略的任何帮助将不胜感激。吨

0 投票
1 回答
5101 浏览

pentaho - Kettle Spoon - 文件名输入中的变量

有人知道如何在“文本文件输入”中为文件名设置变量吗?我希望文件名取决于我执行转换的时间,例如:

仅供参考,我正在使用 Kettle Spoon - 4.2.0

0 投票
0 回答
237 浏览

talend - 无法使用 TALEND 工具将源文件详细信息加载到 mysql 数据库中

我是新来的人才。

我需要将传入的文件详细信息上传到 MySQL 表中。

请问,您能否提供一个示例(Talend ETL),通过 Talend 将主键从一个表(tMysqlOutput)传播到另一个表(tMysqlOutput)?这个主键将作为另一个表的外键。我正在为此苦苦挣扎。

现有场景:

(我想要这个表的主键到子表)

这是我们使用的工具http://www.talend.com/

0 投票
1 回答
26 浏览

distributed - Data retrieval and search accross multiple services

I'm building a system that comprises a multiple heterogeneous services that talk to each other over a network, although in the standard deployment model they are all on the same machine. The UI client for managing the entities within that complex system should be able to display aggregated data from all comprising services while enabling search across that aggregated data.

I'm wondering how to design the data retrieval within this system so that it is scalable as the amount of data to be searched is already high and increases?

I'm thinking about two approaches:

  1. The client queries data from all services on demand and aggregates the results in its layer. In many cases it will have to do joins between data coming from multiple services, so I'm concerned about performance here.

  2. Denormalize the services data in a way so that it is convenient for the client queries and even store aggregations between the multiple services data so that the client doesn't have to do joins on demand. Probably, it would be better to store each service's denormalized data in its own database or cache as thus it would be easier to keep all denormalized data up-to-date. However, I'll need to put the aggregated views across multiple services' data in some other place and I'm concerned about the overhead of keeping this remote cache up-to-date.

Any examples or references to existing architectures that solve similar problems would be highly appreciated. Thanks!

0 投票
4 回答
18659 浏览

pentaho - 在 pentaho 中使用“插入/更新”步骤时数据加载很慢

在 pentaho 4.4.0 中使用“插入/更新”步骤时数据加载很慢

我正在使用 pentaho 4.4.0。在kettle中使用“插入/更新”步骤时,与mysql相比,数据加载的速度太慢了。此步骤将在插入之前扫描表中的整个记录​​。如果记录存在,它将进行更新。那么在执行“插入/更新”时应该做些什么来优化性能。并且处理速度是4 r / s,所以我的记录总共将超过10万……这个过程需要2个半小时才能完成整个过程。

0 投票
3 回答
5242 浏览

parameters - 从命令行启动时无法覆盖 Talend 作业上下文参数

我目前正在尝试从命令行运行 Talend 作业。由于我的生产环境参数与本地工作站上的不同,因此在目标服务器上启动作业时,我必须提供上下文参数:

但是,当我导出作业时,Talend Open Studio(用于数据集成)为我的所有子作业文件夹生成了Default.properties文件。这些文件包含我的本地默认上下文参数

使用生产参数(如上所示)启动我的工作然后失败,因为提供的命令行参数(--context_param 参数)似乎无法覆盖“本地”参数。

有人可以帮我解决这个问题吗?

0 投票
1 回答
24220 浏览

pentaho - 在 Pentaho 数据集成中将字段从 String 更改为 Int

我从我们的在线 API 中获取 JSON 信息,并使用 DI 在表格中生成它。我有 4 个字段url, deviceId, displacement & timestamp。这些都记录为字符串,但我希望它们是 Int 值,除了url.

在 Generate Rows 部分,我尝试将每个参数更改为 Int 但结果不会显示,但如果我将它们保留为字符串,它将发布结果。

关于如何将数据从 String 类型更改为 Int 并且仍然报告我的数据的任何帮助?

0 投票
1 回答
2099 浏览

pentaho - 使用 Pentaho DI 生成正确格式的时间戳

我正在使用数据集成从我们的在线 API 获取数据。数据的一部分是时间戳,它在网站上像这样打印,1389227435641但是当它打印在表格上时,它像这样打印1.389227435641E12

我如何让它像从网站上一样打印,而不是像现在这样?

0 投票
2 回答
203 浏览

google-analytics-api - 无法从 CloudConnect 中的 Google 分析下载器获取数据

我在 GoodData Cloudconnect 中为 Google Analytics Reader 组件创建了新的 GA 连接。连接验证正常。我设置了GA阅读器。我从列表中选择个人资料 ID。一切似乎都很好。我在本地运行图形,然后出现错误: