问题标签 [pdi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1301 浏览

java - 在 Java 上运行 PDI Kettle - Mongodb 步骤缺少插件

我正在尝试运行一个转换,其中包括来自 java 应用程序的 mongodb 输入步骤,但始终导致此消息错误:

我从这个线程中找到了一些相关的答案: Angry org.pentaho.di.core.exception.KettleMissingPluginsException in Step : JmsOutput Why?

这是将插件移动到应用程序文件夹的根路径,我做了,但仍然产生不同消息的错误:

我试图传递一个论点:

正如在这个线程上建议的那样: Pentaho MongoDBInput Java integration 但仍然没有解决我的问题

为了以防万一,我检查了通过 kitchen.sh 命令运行我的 kjb 文件,它运行良好,没有任何问题。

谁能帮我看看我做错了哪一部分?谢谢

0 投票
1 回答
538 浏览

pentaho - 在开始工作之前比较表模式

我们目前正在开展一个项目,我们需要在每次启动 Spoon 作业时检查数据库架构是否已更改,因为我们的来源是我们几乎无法控制的第三方数据库。

对我们来说最明显的解决方案是创建一个脚本来调用像apgdiff这样的工具,然后将架构与之前生成的架构文件进行比较。如果有任何变化,我们会发送通知。

问题基本上是:这是实现这一目标的最佳方式吗?

任何帮助,将不胜感激。

谢谢你的时间。

PS:我不确定stackoverflow是否是解决这类问题的最佳场所,如果不是,请随时推荐任何有趣的论坛。

0 投票
3 回答
1688 浏览

pentaho - Pentaho PDI:上一行计算字段的最终值

我尝试使用分析查询步骤来访问前一行的一些计算字段。事实证明,这些行都是并行计算的,访问前一行的字段可以为您提供它们在处理过程中的当前值,这是一种随机的。似乎不可能获得前一行的字段的最终值。或者除了 Analytik Query 步骤之外还有其他方法吗?我想我需要的只是一个复选框“等待前一行完成”......

我需要这个:我正在处理与时间相关的数据并进行状态识别。当我目前处于状态 A 时,我对我的数据执行其他操作,然后当我处于状态 B 时。所以我需要知道前一个数据行的状态(不是在我的转换结束之前确定的)。

可以做到Excel真的很容易,所以我想PDI中一定有一些方法。:-)

谢谢你的帮助!

0 投票
1 回答
1080 浏览

java - 无法连接安装在 Windows 10 上的 Pentaho PDI 中的步骤

我安装了 Windows 10(教育版)的新副本,发现当我运行 Pentaho PDI(5.4 版)时,我无法将两个步骤连接在一起。通常会打开一个对话框窗口,您可以在其中选择添加跃点,但什么也没有。

我安装了 Java 的 JRE 和 JDK 版本。没有其他问题,我对使用 Java 的其他应用程序一无所知。

如果我在工作表面上放置两个步骤然后尝试执行转换,我今晚确实发现了,它会像你一样失败,但现在我可以连接这两个步骤。添加另一个步骤,直到执行脚本才能连接。奇怪的。

有没有人对如何解决这个问题有任何想法?

非常感谢雷

0 投票
0 回答
1137 浏览

postgresql - 将数据行序列化到 psql 命令时出错

我有一份工作,我只使用两件事,表输入和 pgbulkloader 作为输出。在运行作业时,它不断抛出错误,因为错误将数据行序列化到 psql 命令有什么 建议吗?

错误信息 :

0 投票
2 回答
1867 浏览

pentaho - How should I perform data masking with pentaho PDI (spoon)?

I would perform data masking for more than 10 tables and each tables has more than 100 columns.

I'd tried to mask data using pentaho PDI tool, but I couldn't find out how should I write mask data with it.

How should I perform data masking with Pentaho? I think one of the way is to use tool named "replace in String" but I couldn't change any string even if I tried to use it.

my question is,

  1. Is it correct way to use "replace in String" in order to do data masking.
  2. if it is correct, how should I fill the value in the respective field?

I want to replace some value with *, let's say, the value is "this is sample value" it should be "txxx xx xxxxx xxxxe" some thing like this.

screen of PDI

please help.

0 投票
1 回答
973 浏览

java - Pentaho 数据集成中的 java.util.ConcurrentModificationException

我正在使用PDI 5.4.0.1-130版本,我使用它从 java 中运行转换。

我的问题是我的集成测试不时抛出这个异常......

欢迎任何建议

0 投票
1 回答
366 浏览

pentaho - 为什么 Pentaho PDI 有很多名字?

我只是想知道为什么 Pentaho PDI 有很多名称,例如勺子、水壶和 Pentaho PDI 这个工具的真实名称是什么?(我说的是从特定数据源中提取数据并修改和迁移到另一个位置的工具)

0 投票
4 回答
3500 浏览

java - 如何使用 Java 中的数据库运行 PDI 转换?

我正在尝试从 Java 运行涉及数据库(任何数据库,但更首选 noSQL)的 PDI 转换。

我试过使用 mongodb 和 cassandradb 并且缺少插件,我已经在这里问过:Running PDI Kettle on Java - Mongodb Step Missing Plugins,但还没有人回答。

我也尝试过使用 PostgreSQL 切换到 SQL DB,但它仍然不起作用。从我所做的研究来看,我认为这是因为我没有彻底从 Java 连接数据库,但我还没有找到任何适合我的教程或方向。我已经尝试了这个博客的以下指示: http: //ameethpaatil.blogspot.co.id/2010/11/pentaho-data-integration-java-maven.html:但仍然有一些关于存储库的问题(因为我没有没有,似乎需要)。

当我从 Spoon 运行它时,转换很好。只有当我从 Java 运行它时它才会失败。

谁能帮助我如何运行涉及数据库的 PDI 转换?我哪里做错了?

有没有人成功地从涉及 noSQL 和 SQL 数据库运行 PDI 转换?你用的是什么数据库?

如果我问了太多问题,我很抱歉,我很绝望。任何类型的信息将不胜感激。谢谢你。

0 投票
1 回答
241 浏览

ssis - 用于识别日期格式的模式匹配

我的源具有不同的日期格式,如下所示,我正在寻找一种算法来识别在 Pentaho Data 集成中尝试的源日期模式,其中包含选择值和模糊步骤。

日期列(字符串)
“20150210”
“20050822--”
“2014-02-May”
“20051509--”
“02-May-2014”
“2013-May-12”
“12DEC2013”
​​“15050815”
“May-02- 2014"
"12312015"

我知道在 PDI 中,我们可以通过 JS 一步来通过为每个模式编写 If 条件来实现,但这不是一个好主意,这种方法在处理大量记录时会导致转换失效,寻找搜索日期模式的有效方法。

我相信这是所有 ETL 项目中非常常见的问题,在这里我试图了解 SAS 数据集成、Informatica、SSIS 等企业供应商如何提供简单的处理方法。

我们是否有任何算法来识别源模式。如果有,是哪一个?

上面列出的格式不受限制。