问题标签 [kettle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1685 浏览

xml - 如何转换 XML 以匹配 XSD 或 DTD?

我有一个 Pentaho Kettle (PDI) 转换,它从执行基本 SQL 的表输出步骤开始。此步骤跳转到创建 XML 文件的 XML 输出步骤。

xml 格式如下所示:

但是,我需要此 XML 为特定格式。我确实有一个 XML 模式和 DTD 来定义这种格式,只是不确定进入该格式的最佳方法。

这是一个需要如何格式化的示例。

任何建议表示赞赏。

0 投票
1 回答
12009 浏览

pentaho - Pentaho Spoon - 根据字段内容输出到多个文件

我一直在尝试根据特定字段的值将 pentaho 转换的结果拆分为多个文件,但没有任何运气。

例如,包含以下内容的结果集:

姓、名、国家

奥巴马,巴拉克,美国

卡梅伦,大卫,英国

布莱尔,托尼,英国

将导致创建 2 个输出文件:

USA.txt - 包含奥巴马的详细信息和 UK.txt - 包含其他 2 行

任何指针将不胜感激。

0 投票
2 回答
4694 浏览

pentaho - Pentaho Spoon - 等待文件 - 通配符

我知道我最近问了几个与 pentaho 相关的问题,但我急于在短时间内评估它:)

我试图克服的最新障碍是我正在构建一个工作,它将在输入文件到达时对其进行处理,但我只知道文件名的格式,而不是确切的文件名本身,并且“等待文件”步骤不知道允许通配符。对于这样一个步骤,这似乎是一个明显的 ommision,所以我想知道我是否错过了一些东西,但在论坛等上似乎我不是唯一面临这种挑战的人。

理想情况下,我需要“等待文件”步骤来搜索通配符/正则表达式,当找到匹配项时,将生成的文件名传递给作业的下一步进行处理。

有什么建议么?

谢谢

汤姆

0 投票
1 回答
405 浏览

pentaho - 将 Kettle 从 3.2 迁移到 4.1

是否有关于如何将应用程序中的 Kettle(用于执行转换,而不是用于创建它们)从 3.2 版迁移到当前 4.1 版的任何文档/教程?我在网上找不到任何有用的资源,因此感谢您提供任何提示。

0 投票
3 回答
3427 浏览

amazon-s3 - 有没有办法将 Gzipped 文件从 Amazon S3 加载到 Pentaho(PDI / Spoon / Kettle)?

有没有办法将 Gzipped 文件从 Amazon S3 加载到 Pentaho Data Integration (Spoon) 中?

有一个“文本文件输入”具有支持 Gzip 的压缩属性,但此模块无法连接到 S3 作为源。

有一个“S3 CSV Input”模块,但没有 Compression 属性,因此无法将 Gzipped 内容解压为表格形式。

此外,无法将 S3 中的数据保存到本地文件。下载的内容只能“跳”到另一个 Step,但没有 Step 可以从上一个 Step 读取 gzip 后的数据,Gzip 兼容的 step 都只能从文件中读取。

因此,我可以从 S3 获取压缩数据,但我无法将该数据发送到任何可以使用它的地方。

我错过了什么吗?有没有办法从非文件源解压缩压缩数据?

0 投票
1 回答
2829 浏览

pentaho - Pentaho Spoon - 验证固定宽度输入文件格式

我正在尝试在 pentaho 中处理一个固定宽度的输入文件并验证格式。该文件将是字符串、数字和日期的混合体。但是,当尝试处理存在不正确字符的数字字段时(我原以为会引发错误),它只会读取数字的第一部分并忽略错误的字符。

我可以使用包含单个字段的非常简单的输入文件重新创建此问题:

在此处输入图像描述

我指定了预期的数字格式,以及起始位置和长度: 在此处输入图像描述

在运行转换时,我预计“Q”会导致错误,而不是显示以下结果,只需读取前两位数字“67”并填充其余数字以匹配指定格式:

在此处输入图像描述

如果输入文件的格式正确,它运行得很好,但需要它抛出一个错误,否则。任何建议都会很棒。谢谢!

0 投票
1 回答
98 浏览

oracle - 水壶 / 自动参考表

我有一个人的excel表,每个人都有一个父亲和一个母亲在同一个人表中。我的 exel 表如下所示:

---父亲 --- 母亲

约翰--------托尼-----简

托尼--------杰克

我想将数据导入到如下所示的 Oracle 数据库表中:

id --- 人 ---父亲 --- 母亲

0 -----插孔

1 -----托尼-------- 0

2 -----简

我的工作流程应该是什么?

3 ----约翰 -------- 1------------2

0 投票
1 回答
229 浏览

pentaho - pentaho spoon - change owner of created dir/files

is there an easy way to create files/directories with a different owner to the account being used to run pentaho? Thanks in advance.

0 投票
2 回答
3018 浏览

dynamic - Pentaho-kettle:需要根据用户输入动态创建 ETL 作业

在我的应用程序中,用户可以指定其文件的格式。我们根据用户输入动态创建 SSIS 包。

http://lakshmik.blogspot.com/2005/05...eate-ssis.html

动态创建的 SSIS 包用于处理用户的文件。

我们想要评估 Pentaho-Kettle 是否满足此要求。Kettle 是否可以根据用户的输入动态创建 ETL 作业?

如果不是 Pentaho,是否有任何 Java ETL 工具允许使用动态创建 ETL 作业?

0 投票
1 回答
2962 浏览

csv - 如何在spoon,pentaho中按列合并2个csv文件,同时管理数据转换?

我面临以下问题:

我有两个输入:
1)我有一个包含 35 列及其正确标题的 csv 基本文件。
2) 我有各种不由我控制的给定文件,它们可能包含也可能不包含 35 列,更糟糕的是,它们可能出现故障。

我必须将第二个 csv 文件中的列与第一个 csv 文件中的列匹配。如果第二个 csv 文件没有全部 35 列,我应该按正确的顺序创建它们。

一旦我有一个适当的 csv 文件(一个标题看起来像第一个 csv 标题的文件),我会将它传递给一个脚本,该脚本管理通过列标题引用它们的数据。

一种可能的解决方案是在脚本中获取现有的字段输入,但是,我无法做到这一点,因为这些字段似乎是固定的,引用了第二个 csv 文件的现有列标题。因此,当我尝试访问不存在的列时,我最终会遇到异常......

任何帮助将不胜感激!