问题标签 [pdi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 使用 PDI 从 ftp 服务器下载文件夹
我正在尝试使用'Get a file with ftp'
step 下载整个文件夹。这一步只下载文件吗?我还尝试了正则表达式来匹配文件夹。我对文件夹使用了以下正则表达式:
^[a-zA-Z0-9]$
此外,它只下载.txt files
. 我对文件使用了以下正则表达式:
*\.(txt|jpg|gif|pdf|doc|docx|xls|xlsx)
注意:我想下载指定目录中的整个文件夹,但我也面临仅下载文件的问题。
cassandra - PDI 5.3 的 Cassandra 数据查询问题
我有一个 Cassandra 安装,其中包含一个不超过 110k 记录的表。
我在使用 PDI 5.3(最新版本)查询数据时遇到了很多麻烦。我在 Cassandra 方面经常失去记忆。
当然,我安装 Cassandra 的服务器不是最大的,4Gb RAM 并且只有 2 个内核,我仍然希望能够毫无问题地执行这个简单的任务。
在 cassandra/conf/cassandra-env.sh
中,我配置了:
现在我可以查询的最大行数是 80k。文档建议将 MAX_HEAP_SIZE 设置为机器 RAM 的 1/4。但对我来说,这意味着 1G 并且只有大约 20k 行要查询。
我可以通过在 PDIlimit
的步骤中使用关键字限制选择来判断我可以查询多少行。Cassandra input
我可以调整任何其他参数以获得更好的性能吗?这是一个开发服务器,在生产中我会期待超过 100 万行的查询。
安装 Cassandra 的服务器:Red Hat Enterprise Linux Server release 6.6 (Santiago)
Cassandra 版本:apache-cassandra-2.1.2
编辑:版本更新。
pentaho - Pentaho:仅在没有重复项时执行插入
基本上我只想在目标行没有更改的情况下插入一组行。
我已经实施了一个阻塞步骤来等待所有行在继续之前被处理。在此之后,我想添加一个条件来检查是否有任何更改的数据以及是否有任何中止进程,否则插入所有行。
有什么建议么?
kettle - 是否可以有多个具有多个值但参数名称相同的 Kettle 属性文件
是否可以有多个具有多个值但参数名称相同的 Kettle 属性文件例如。我在kettle 属性中定义了 client_id 和 client_name 为 1 和 Microsoft,而且我想存储相同的参数但值不同 client_id=2 client_name =Google 在一个单独的文件夹中的单独的kettle.properties 文件中。因此,是否可以在具有多个kettle.properties 的多个文件夹结构中具有相同的ETL。这样在执行两个ETL 中的每一个时,它都会从kettle 中读取参数属性并相应地以不同的值加载到输出中。
cassandra - Pentaho Spoon 中的 Cassandra 输入步骤引发读取负帧大小错误
我正在使用 PDI 4.4.0。在 Cassandra 输入步骤中,我无法从 cassandra 读取数据。以下是我的堆栈跟踪。
我也无法使用显示模式按钮读取数据。对于 localhost Cassandra,我尝试更改 `thrift_framed_transport_size_in_mb: 16。初始值为 2。是否需要在 PDI 中进行任何配置?请帮忙。
rest - 使用 Web 服务运行 PDI 作业
我有一个使用勺子创建并导入到 DI 存储库的作业。如果不使用 PDI 作业调度程序对其进行调度,我如何使用 REST Web 服务在数据集成服务器上运行 PDI 作业?这样我就可以随时调用它。
installation - 安装 pentaho 数据集成时出错
我正在尝试安装 pentaho 数据集成,但 spoon.bat 的配置有问题。我用添加更新了文件PENTAHO_JAVA= javaw.exe
,还编辑了环境变量(计算机>属性>高级>环境变量,在变量PATH的末尾添加“;C:\Program Files\Java\jre7\bin”。但是当我启动文件,它不起作用。
我有这个错误 DEBUG: Using JAVA_HOME
and Windows can't find the path
pentaho - 将不同的元数据发送到不同的目标流 - PDI
我有两个目标流(匹配和不匹配)定义如下:
我想向这两个目标发送不同的元数据。从前面的步骤接收元数据。对于匹配,它需要是两个输入流的串联,对于不匹配,它只需要第一个输入流。
我被困在如何分别为两个目标流定义元数据。
感谢你的帮助。
hadoop - 无法在 pentaho 中运行 pig 脚本
我在分布式模式下使用 Hadoop。我想通过远程机器在hadoop集群上执行pig脚本。所以为了实现这一点,我正在使用 pentaho & pig 脚本实用程序。我设置了所有参数,例如 HDFS HostName: Hadoop master name HDFS Port: 8020 Job tracker Hostname: another slave machine name Job tracker port: 8021 Pig script path
我点击了这个链接在此处输入链接描述
但是猪脚本失败了下面是错误日志
这是我的猪脚本。
谢谢
kettle - PDI 中步骤“阻止此步骤直到步骤完成”的问题
在 PDI 作业中使用步骤“阻止此步骤直到步骤完成”时,将在执行 10k 行后停止运行。如何解决?