问题标签 [pentaho-spoon]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
855 浏览

oracle - 如何检查 cassandra 与 pentaho 数据集成器的连接

我正在尝试使用 Pentaho Data Integration 5.1(社区版)将数据从 Oracle 表加载到 Cassandra 表。但我不知道是否在 oracle 和 cassandra 之间建立了连接。我正在使用 Cassandra 2.2.3 和 Oracle 11gR2。我在 data-integration --cassandra-thrift-1.0.0 --apache-cassandra-cql-1.0.0 --libthrift-0.6.jar --guava-r08.jar --cassandra_driver 的 lib 文件夹中添加了以下 jars .jar 请任何人都可以帮助我弄清楚如何检查 Pentaho 中是否已建立连接。

0 投票
0 回答
389 浏览

pentaho - 文件系统异常:找不到文件。原因:无效的后代文件名 hdfs

我正在尝试在 pentaho 中执行 hadoop-mapreduce。我在工作中执行了hadoopcopyfiles步骤来指定文件的输入路径。如果我的输入文件位置具有根访问权限,则一切正常。(即)已经在根文件夹中创建的文件。但是,如果我将源文件作为我的本地文件位置,它会在 pentaho 日志中给出以下错误

我试过给

sudo chmod 777 /home/vasanth/Desktop/my.txt

但错误仍然存​​在。我该如何解决这个问题?

0 投票
1 回答
1268 浏览

pentaho - 如何在 Pentaho 变量中保存结果行集?

在工作中,我有几个转变。特别是,一种转换从某个目录中查找文件名。使用“将行复制到结果”,主作业中的下一个转换是使用这些行(文件名)。在主作业中的几个步骤之后,另一个转换需要这些文件名。

我如何从最后一次转换中访问这些值(假设最后一次转换之前是工作中的其他几个步骤)?

谢谢你。

0 投票
2 回答
835 浏览

javascript - 从当前行向后查找第一个非空值扫描行

软件

我正在使用 Pentaho 数据集成 5.4

输入数据和解释

从文件输入数据(简化,有更多列):

问题是我有一个Excel文件格式xlsx,其中包含合并单元格的数据,并且对于一个值,id1..n几行值。

将该文件转换csv为下一行(除了第一行)的值后,尽管有一列未合并(参见示例id=3id=6),但仍丢失。

我正在生成一个sequenceusing step Add sequence,输入按照最初存储在文件中的方式进行排序。

实现目标的步骤

基本上我需要做的是:

  • sequence_number找到第一个小于的非空值current_row.sequence_number
  • 将字段中的值连接name到匹配的行
  • sequence_number继续扫描高于上次扫描的下一行

如前所述,1..n这种情况可以有多行值。

预期产出

我的方法

我相信我可以通过使用Analytic Query和计算LAG(1)然后将一行的name列与空值连接并从空行中丢弃其他列值来循环执行此操作 - 然后在循环中执行此操作(大约 20 次假设这是最大值),但我确实认为这是一个坏主意。

可能有更好的方法来实现此结果,例如使用Java Script从当前向后扫描行的步骤(基于sequence数字),但我不知道这些功能是否存在。

Modified Java Script Value在没有空行之前,如何在不使用循环文件的整个内容的情况下使用步骤或任何其他有效方式来实现此目的?

0 投票
1 回答
2511 浏览

pentaho - 为什么 Pentaho PDI Spoon GUI 上没有调度选项?

我想使用 Spoon 图形界面在 Pentaho PDI 下安排作业。在pentaho 文档中,您可以看到它在 Action-->Schedule 下可用。但在我的情况下,这个选项不存在。我正在使用 Pentaho 6.0.1

在此处输入图像描述

我的情况到底是什么问题?在此先感谢您的帮助。

0 投票
2 回答
2608 浏览

db2 - Pentaho Spoon 由于缺少驱动程序(jar 文件)而无法连接到 IBM DB2 数据库

我正在使用 Pentaho 的勺子。当我尝试连接到 IBM DB2 数据库时,出现以下错误

`驱动程序类 'com.ibm.db2.jcc.DB2Driver' 找不到,请确保安装了 'IBM DB2' 驱动程序(jar 文件)。com.ibm.db2.jcc.DB2Driver

我在谷歌上搜索但找不到任何东西。

0 投票
1 回答
1241 浏览

excel - Pentaho 数据集成 - 加载多个 Excel 文件输入

我一直在使用 Spoon 作为完成项目的工具。要求之一是加载多个具有相同格式(表格)的 Excel 文件,以便将其输出到表格输出。

但是 Excel 文件的数量必须是可变的(要求),但它们位于同一文件夹中。哪些步骤允许加载文件夹中的所有 Excel 文件?

谢谢。

0 投票
1 回答
92 浏览

excel - 在 Pentaho 的 Switch/Case 步骤中为每个案例生成一个 excel 输出文件步骤

我有一个文本文件输入步骤,它从同一目录下的多个文件中读取,并生成一个巨大的数据集。我需要在Switch / Case语句中为每个案例生成一个 excel 文件输出,并根据数据集中某个字段的值为每个 excel 文件命名
Spoon 可以做到这一点吗?

任何帮助将不胜感激。

0 投票
0 回答
604 浏览

pentaho - Pentaho Kettle/PDI 在第二次请求时失败

我有最新版本的 Kettle/PDI。Carte 在 Windows 上本地运行,配置如下:

在 .kettle/repositories.xml 中:

您会注意到这些几乎是存储库数据库的一些特定配置的默认设置。通过 Spoon,我创建了一个简单的转换,它在数据库表上运行选择,对列执行一些简单的计算,并返回一些 JSON。

如果我告诉转换在 master1 上运行,它会工作并吐出 JSON。

如果我再次运行完全相同的命令,则会出错:

我不明白为什么在第一次请求后与存储库数据库的连接失败。尽管出现此错误,Carte 仍会继续运行,但在通过 URL 访问时会抛出如下错误:

我挖掘了该堆栈跟踪的代码,这意味着 Repository 对象是null. 因此,出于某种原因,Carte 可以连接到 PDI 存储库,但是当它成功一次时,出现了一些错误并且它断开了连接并且不再能够找到转换。

0 投票
1 回答
662 浏览

kettle - Pentaho DI (Kettle) 基于 csv 文件头选择流的最佳方法?

我正在使用 Pentaho DI(水壶),但不确定执行以下操作的最佳方法是什么:从下载的 csv 文件中,检查列是否存在,然后根据该选择正确的下一步。有 3 个可能的选项。

谢谢,艾萨克