问题标签 [kettle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2181 浏览

migration - 水壶是一个好的数据迁移解决方案吗?

有人对水壶有经验吗?我正在寻找一个好的数据迁移解决方案。

0 投票
2 回答
3776 浏览

etl - Pentaho Kettle 的架构在哪里?

我在哪里可以找到 Pentaho Kettle 架构?我正在寻找一个简短的 wiki、设计文档、博客文章,以及任何可以很好地概述事物如何工作的东西。这个问题不是针对特定的“如何”入门指南,而是针对技术和架构的良好看法。

我的具体问题是:

  1. 步骤之间的数据如何流动?似乎一切都在记忆中-我对此是否正确?
  2. 以上关于不同的转换是否也是正确的?
  3. 收集步骤是如何实施的?
  4. 使用它有什么具体的性能指南吗?
  5. ftp 任务是否可靠且高效?
  6. 还有其他“注意事项”吗?
0 投票
1 回答
1097 浏览

java - Pentaho Kettle 的 Src jar

我在哪里可以找到 Kettle 的 src-jar?我正在寻找一个包含 Java 文件的 jar,我可以将我的 IDE 指向(例如 junit-4.6-src.jar)。

0 投票
1 回答
3789 浏览

xml - 在 Kettle / Spoon 中同时读取属性和节点

我正在使用水壶并尝试从 xml 文档加载属性和节点值。

如果我将循环 XPath 设置为颜色,我只会得到一行,但它会读取代码和值。
例子:

但是,如果我将 XPath 设置为 Color,我将得到 3 行,但它不会读取每个项目的值。
例子:

如何一次读取所有元素以及属性和节点值?

谢谢。

0 投票
2 回答
6470 浏览

ssis - Rhino ETL 意见 vs Kettle 和 SSIS

我正在考虑一种用于 ETL 解决方案的工具,该解决方案具有很高的日常需求并且需要繁重的业务逻辑处理。到目前为止,我已经尝试过水壶和 SSIS,并且还想测试 Rhino ETL。我不关心 Kettle 和 SSIS 的可视化流结构,使用它们创建复杂的业务规则似乎真的很难...... Rhino ETL 似乎更友好,因为它有自己的 DSL 来转换数据,我也可以使用 C#。

最后,我的问题是:有人大量使用 Rhino ETL 吗?与 Kettle 和 SSIS 相比,它具有良好的性能吗?可维护性如何?

谢谢

更新:

在我对 Kettle 和 SSIS 进行的比较中,毫无疑问,Kettle 更好。与 Kettle 相比,我正在考虑 Rhino ETL 的实用方法。正如评论中所说,这似乎是倒退了一步,但所需的验证并不是 Kettle 推荐的那种问题。例如,我们的一个集成接收到某种调度,必须根据系统中的现有调度进行验证,它们不能冲突,有多种类型的调度并且冲突验证规则很复杂。系统已经有一个用户界面来做这件事,并且业务逻辑已经用 C# 代码实现了。任何将其移植到 Kettle 的尝试似乎都非常困难,此外,它还违反了“做一件事只有一种方法”的原则。

评论中提到的“无人使用”问题也是我关心的问题,这就是为什么我在这里试图找出是否有人在繁重的生产环境中使用它。

感谢您迄今为止的反馈。

0 投票
1 回答
3153 浏览

recursion - Pentaho 数据集成中的递归调用

Pentaho 数据集成中的步骤或转换是否可以调用自身,将先前调用的结果作为参数/变量传递?

我的第一个想法是在转换中创建一个循环,但似乎不允许它们......

0 投票
4 回答
7307 浏览

pentaho - 等待工作中的转换

我正在使用 Pentaho 数据集成(又名 Kettle),我有几个转换,我们称它们为 A、B、C、D、E。B 依赖于 A,D 依赖于 C,E 依赖于 B 和 D。在工作中我想并行运行 A、B 和 C、D:

其中 A 和 C 并行运行。有没有办法只在 BD 成功的情况下执行 E ?现在,查看 Job 指标,E 会在 BD 完成后立即执行。

0 投票
4 回答
310 浏览

sql - 如果在删除或只是盲目地调用删除之前进行选择计数会更好吗?

我正在寻找一个最佳实践/想法,是否最好在调用删除之前进行选择计数并检查结果是否> 0,或者是否最好在数据库中盲目地触发删除语句,即使数据不存在。在我们的例子中,大多数时候数据将不存在。

那么更好的是:

或者

出于速度原因,我倾向于盲目删除,因为无论如何你都在打桌子。

编辑:这实际上发生在kettle(一个ETL工具)中,因此如果有删除,这三个操作将完全分开完成。所以完全在 SQL 中不是一个选项。

0 投票
1 回答
2791 浏览

pentaho - Pentaho:将日期转换为可向下钻取的多维数据集维度的最佳方法?

我的数据仓库表只包含一个dateSQL 列,但我希望能够使用通常的年/季度/月/日级别向下钻取。

我可以使用 Pentaho Kettle 手动创建新列,然后在 Pentaho Schema Workbench 中逐个创建关卡。

但这是一项非常常见的任务(我想创建与销售相关的多维数据集的每个人都必须这样做),所以我确信 Pentaho 开发了一些东西可以在几秒钟内完成。推荐的方法是什么?

0 投票
2 回答
4833 浏览

regex - 正则表达式删除不需要的文本

总的来说,我对 RegEx 还是有点陌生​​。我正在尝试从字段中检索名称,以便将它们拆分以供进一步使用(使用 Pentaho Data Integration/Kettle 进行数据提取)。这是我给出的字符串的示例:

我想返回以下格式:

Kettle 使用 Java 正则表达式。