1

基于以下用例,pentaho 工具在完成​​动态转换方面有多灵活?

  1. 用户需要从目录中做出第一选择。(使用网络界面)

  2. 基于先前选择的项目,用户必须从另一个目录中进行选择(必须根据第一个选择过滤第二个目录)。

在某些情况下,步骤 1 和 2 可能会重复(即两个以上的动态和相关参数)。

  1. 根据用户在步骤 1 和 2 中选择的内容,ETL 必须从数据库中提取信息。从中选择数据的表将取决于用户在前面的步骤中选择的内容。大多数表具有相似的结构,但根据所选项目的名称不同。一些表格具有不同的结构,用户必须能够在步骤 2 中选择字段,再次基于步骤 1 的选择。

  2. 用户所做的所有选择都应该能够保存,因此用户以后不必重复选择,只需重新运行该过程即可根据预先选择的过滤器获取更新的信息。然而,如果他/她想要不同的参数,他/她必须能够做出不同的选择并将其保存以供进一步使用。

是否有任何基于网络的工具允许用户根据这些选择做出所有这些选择?我使用kettle而不是动态地制作了整个过程,因为在控制台中运行该过程时需要传递所有参数。问题是,最终用户不知道所有参数值,除非您显示它们并让他们选择,并且某些参数取决于先前的选择。测试时我可以使用我的测试用例场景参数,所以我没有问题,但在生产中没有办法提前知道用户会选择什么组合。

我发现了一个类似的问题,但它似乎不需要用户在转换步骤之间输入。

对于 Pentaho 工具完成上述用例的功能,我将不胜感激。

4

2 回答 2

1

我不同意这里的另一个答案。如果您使用 CDE,则可以构建一个可以轻松执行您建议的那些提示的前端。CDE 的美妙之处在于,转换可以通过 CDA 数据访问层成为本机数据源。在这种环境下,kettle 几乎不比直接执行查询慢。

PDI 性能的关键是避免一次又一次地启动 JVM——当在 web 应用程序中运行时,你已经开始了,所以性能会很好。

还; PDI5 的最新版本将具有“轻型 jdbc”驱动程序(EE 客户),它基本上是 PDI 作业的 SQL 接口。因此,这再次表明,如今 PDI 不仅仅是一个“批处理”etl 过程。

于 2013-08-10T17:47:54.397 回答
0

这完全超出了 Kettle 用例的范围。对于任何用户来说,Kettle 的响应时间都太慢了。它的真正优势在于运行批处理 ETL 流程。

例如,请参阅此幻灯片(尤其是幻灯片 11),了解典型的 Kettle 用例示例。

于 2013-08-09T18:37:32.023 回答