问题标签 [pentaho-data-integration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server-2005 - 用于连接到 MsSQL 的命名实例的 JNDI 示例
我们正在使用 Pentaho 数据集成(开源 ETL 工具)并尝试使用 JNDI 连接来连接到 MS SQL 2005 数据库。如果我们在服务器上使用默认实例,它工作正常,但是我们遇到的问题是试图让它连接到命名实例。
如果您能提供一个示例或某个地方可以查看,我们将不胜感激。
谢谢。
etl - 水壶:如何获取每组行的最大日期
我正在使用 Kettle 阅读 Excel 表格,该表格包含三个字段:代码、描述和日期。
示例:
我想要的是为每一行添加一个额外的字段Max date,其中 max date 是基于描述的组的最新日期,如下所示:
示例 2
具有描述 A的行组的最新日期为 15/JAN/2013(因为第 2 行)。具有描述 B的行组的最新日期为 16/JAN/2013(因为第 5 行)。
javascript - 想在pentaho中将String数据类型转换为Date数据类型
我有一个字符串,它的日期格式如下:n_date=2014-04-20
我想把它转换成日期数据类型
但我得到一个错误。
我在做这个pentaho
transactions - Kettle 社区版中的事务性作业
使用:Pentaho Data Integration 5.4 社区版。
在文档中,有一个声明对作业级别的数据库事务进行了说明:
工作中的交易
从 PDI 5.0 版(企业版)开始,您还可以启用与作业中的转换相同的功能。“使作业数据库事务化”选项位于作业设置对话框的“设置”选项卡中。
然而,这仅适用于 PDI企业版。我需要社区版中的此功能。
我一直在尝试通过 using 在转换中执行此操作Transformation Executors
,Mapping transformations
但到目前为止没有成功。
对于一个小过程,我最终Blocking step
在转换内部使用并使转换数据库事务化。
从更大的角度考虑,对于数据集市、数据仓库等的 ETL 流程,如果发生故障需要对所有流程进行完全回滚,如何解决在 CE 中没有此功能的问题?
编辑:你们中的一些人可能偶然发现了这个问题,我想知道解决这个问题的不同方法是什么(不包括完整的数据库备份和恢复——这对于像数据仓库这样的大型数据库来说将永远需要)。
database-connection - 共享 pentaho 水壶中跨转换的数据库连接
我想共享用于跨其他转换的转换的数据库连接。
Pentaho Kettle 有可能吗?如果是,那怎么办?
如果不是,除了再次手动定义所有数据库连接之外,还有其他解决方法吗?
pentaho - Pentaho PDI:远程转换的行监听器
我已经知道如何使用 Java ( http://wiki.pentaho.com/display/EAI/Executing+a+PDI+transformation )为本地转换实现行侦听器。
由于 Spoon UI 和 Carte API 都没有提供任何机制来持续预览远程从站上运行的数据,因此我尝试使用纯 Java 实现相同的机制。StepInterface
但是,在附加到SlaveServer
对象时似乎没有可用的方法返回 a :
有什么方法可以获取StepInterface
远程 Carte 服务器的引用以附加行侦听器?
如果没有,是否有任何方法可以预览在 Carte 服务器上运行的远程转换的所有行?
python - Pentaho PDI:脚本任务中与元数据相关的空指针异常
使用 Pentaho PDI 6,具有:
A) .csv 上的 CSV 输入(来自 IBM 的 4 行 .csv),带有 ASCII 文件编码(预览行工作正常)
连接到
B) CPython Script Executor,可从 Tools -> MarketPlace 安装。假设安装了 Python、Pandas、Numpy。脚本设置:
配置、输入帧:(上一步)、df
Python 脚本、手动 Python 脚本:df.replace(to_replace= "\[|\]|'|\"", value='', regex=True, inplace=True)
输出字段、输出字段:(列名、字符串类型)
投掷
先前的调试表明 processRow 可能无法确定元数据类型,但此错误并未表明这一点。
问题:设置脚本任务以读取 .csv 而不抛出 NullPointerExceptions 的正确方法是什么?
编辑 - 错误也与源材料一起复制。请参阅:Mark Hall、Cpython 脚本和示例 .zip 文件
编辑 1 -python
在命令提示符中给出
C:\Users\*****>python
Python 3.5.2 (v3.5.2:4def2a2901a5, Jun 25 2016, 22:01:18) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
我没有运行 anaconda(重量太重)并且我的 Python 版本提前 0.1,这可能会影响一些事情,但我希望插件与 Python 版本无关,除非Python 二进制编程接口发生更改或其他什么。
编辑 2 - 我无法附加 Kettle 文件,但上面 Mark Hall 的示例文件重现了我遇到的相同问题。
bash - 当我调用 API 下载文件时,Pentaho shell 抛出错误
我是 Pentaho 的新手。我想在 Pentaho Shell 中使用 curl 命令来调用 API 并下载文件。该文件正在下载,但在下载时会抛出一些错误消息。
- 将“shell”步骤拖入转换窗口
- 编辑步骤。
- 检查插入脚本并提供工作目录。
- 在脚本窗口中给出 curl 命令来调用 API。
错误消息在 shell 窗口 上 我们如何避免错误消息?
mapping - Map different number of fields between source and target steps in pentaho kettle
I'm trying to consolidate multiple databases into a single database.
The challenge is, not all the databases have the same column structure.
In some cases, number of columns in the source table is very much less than the target table.
What I want to do is, map the columns that are common between source and target tables and set other columns in the target table to null.
e.g. Let's consider that my source table consists of 120 columns where as the target table consists of 180 columns. I want to map all the 120 columnsin the source table to corresponding column in the target table leaving the remaining 60 as null in the target.
Is it possible in Pentaho Kettle?
Currently I'm getting the following error:
I've defined the mapping for common columns between the tables. Please let me know if any more info is needed.
postgresql - 勺子与 PostgreSql 的连接问题
从 Spoon 连接到数据库时抛出错误消息。
- 选择出现在屏幕左上角的查看选项,右键单击数据库连接选项,然后选择新建。
- 在 Connection Type 下,选择 postgresql 数据库引擎。
填写“设置”选项并通过在“连接名称”中键入连接来命名。输入的所有凭据都是有效的,但我仍然收到以下错误消息:
连接到数据库 [XXX-XXX-XXX-XXX] 时出错:org.pentaho.di.core.exception.KettleDatabaseException:尝试连接到数据库时出错
连接到数据库时出错:(使用类 org.postgresql.Driver)连接尝试失败。
org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错
连接到数据库时出错:(使用类 org.postgresql.Driver)连接尝试失败。
原因:org.pentaho.di.core.exception.KettleDatabaseException:连接数据库时出错:(使用类 org.postgresql.Driver)连接尝试失败。
原因:org.postgresql.util.PSQLException:连接尝试失败。org.postgresql.core.v3.ConnectionFactoryImpl.openConnectionImpl(ConnectionFactoryImpl.java:233) org.postgresql.core.ConnectionFactory.openConnection(ConnectionFactory.java:64) org.postgresql.jdbc2.AbstractJdbc2Connection.(AbstractJdbc2Connection.java: 144)在 org.postgresql.jdbc3.AbstractJdbc3Connection.(AbstractJdbc3Connection.java:29) 在 org.postgresql.jdbc3g.AbstractJdbc3gConnection.(AbstractJdbc3gConnection.java:21) 在 org.postgresql.jdbc4.AbstractJdbc4Connection.(AbstractJdbc4Connection.java:31)在 org.postgresql.jdbc4.Jdbc4Connection.(Jdbc4Connection.java:24) 在 org.postgresql.Driver.makeConnection(Driver.java:410) 在 org.postgresql.Driver.connect(Driver.java:280) 在 java.sql .DriverManager。
主机名:XXX-XXX-XXX 端口:1111 数据库名:XXX_XXX_XX
请建议我如何解决此问题