问题标签 [pdi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
7628 浏览

java - 无法从 PDI 社区版中的 Spoon.bat 启动 PDI GUI

系统详情:

PDI 版本:

执行的步骤:

从 cmd 执行 Spoon.bat 时收到错误:

0 投票
2 回答
1743 浏览

kettle - 从大文件中提取数据excel

我正在使用 Pentaho 数据集成创建从 xlsx 文件到 mysql 的转换,但我无法从带有Excel 2007 xlsx(apache POI Straiming). 它给了我内存不足的错误。

0 投票
1 回答
856 浏览

sh - 表输入步骤不替换变量

我在 Pentaho Kettle 的输入步骤中运行以下代码:

但是,当我通过这个 shell 脚本运行作业时:

表输入步骤不会替换变量。

0 投票
1 回答
184 浏览

json - 如何在 Json 文件中使用 FK/PK - Pentaho

我是 Pentaho 世界的新手,我被一些东西困住了。

基本上我有一个 json 文件,我想将所有数据保存到数据库中。json结构是这样的:

[]基本的

我有想法打破三张桌子。小学,中学和第三。我认为我需要将 idPrimary 作为 PK,他们将 idPrimary_FK 放在第二个和第三个。但是我该怎么做呢?当我使用 json 文件输入,并选择属于第四个的所有字段时,我不能将 FIELD1 放在同一个表中,给我一个错误:

2015/12/20 00:12:57 - PRICES.0 - 资源内部的数据结构不同!我们为 json 路径 [$.PRIMARY[ ].FIELD1] 找到了 65 个值,这与路径 [$.PRIMARY[ ].SENCODARY[ ].SENCODARY[ ].FIELD4] 返回的数字不同(174 个值)。我们必须为所有路径具有相同数量的值。

请帮帮我。

0 投票
1 回答
3514 浏览

java - 如何将 Pentaho 6.0 连接到 Hadoop-Hive

我正在尝试将 Pentaho 连接到 Hive,以便我可以通过 Pentaho 运行 Hive 查询。我已经在我的 Windows 7 (Professional 64bit) 上安装了 Pentaho 6.0。我已经在“裸机服务器”上配置了 Hadoop。Hadoop系统的详细信息如下:

  1. Apache Hadoop V 2.6
  2. 蜂巢 v 1.1

我尝试使用连接类型:Hadoop-Hive 2、数据库名称:默认和端口号:10000 连接到 Pentaho。我已经从这个 Web 链接添加了 Hive JDBC jar 文件:http: //mvnrepository.com/artifact/org.apache.hive/hive-jdbc/1.1.0。最后,当我尝试连接时,出现以下错误:

0 投票
1 回答
72 浏览

kettle - 手动转置行

我正在使用 denormaliser 步骤,在 denormaliser 步骤的 Targetfieldname 列中我想包含 8000 行,手动输入 8000 行不方便。有人可以帮我做一些自动化吗?

0 投票
2 回答
2669 浏览

pdi - 在 PDI / Spoon 中复制/移动文件会产生“不是文件”错误

我正在尝试自动每周生成数据库。作为此过程的第一步,我需要从 network location 获取一组文件M:\。过程如下:

  1. REMOVE_OLD_FILES从我的本地文件夹 ( ) 中删除任何可能剩余的旧源文件。
  2. GET_FILES使用正则表达式 ( )获取所需文件的名称。
  3. 将文件从网络位置复制到我的本地文件夹以进行进一步处理 ( COPY/MOVE FILES)

收购过程

第 3 步是我遇到麻烦的地方,我经常收到以下错误:

但是,当我手动定位网络位置上的“错误”文件并尝试打开或复制它时,没有问题。如果我然后重新运行 Spoon 作业,则此文件不会发生错误(尽管下一个文件可能会导致错误)。

到目前为止,我已经验证了第 1 步和第 2 步运行正确:更具体地说,从第 2 步返回的文件名中没有错误。

显然,我宁愿不必先手动打开所有文件以确保 Spoon 可以正确复制它们。有谁知道可能导致这种行为的原因?

为了完整起见,以下是COPY/MOVE FILES步骤中选择的参数。

文件复制对话框

0 投票
2 回答
2226 浏览

parameter-passing - 从 CDE 到 PDI pentaho 的参数传递

我有一个场景使用kettle将参数从pentaho cde传递到pentaho数据集成,然后使用PDI中传递的参数更新表。如何传递参数并在 PDI 中获取传递的参数?

提前致谢!!!

0 投票
2 回答
4985 浏览

java - BIGQUERY - 如何与 Pentaho Data Integration (Spoon) 建立连接?

我正在尝试通过 Pentaho 数据集成访问 BigQuery,但没有成功。

  • 系统:OSX El Capitan
  • Google BigQuery 身份验证方法:使用 .p12 密钥的服务帐户

我已按照本教程进行操作,并且正在使用 OSX http://wiki.pentaho.com/display/EAI/Google+BigQuery

这就是我所做的:

  1. 我将“kettle.zip 的依赖项”下载并提取到PDI_FOLDER/libswt/osx64
  2. 我下载并复制“bqjdbc-1.4-standalone.jar”到PDI_FOLDER/lib
  3. 之后,我尝试在数据集成中创建一个新连接,使用New>Database Connection>Generic Database>Native (JDBC)

我按照本教程https://code.google.com/p/starschema-bigquery-jdbc/wiki/JDBCURL配置了使用此参数的连接。所以参数是:

  • 自定义连接 URL:jdbc:BQDriver:projectid(secretproject)?withServiceAccount=true
  • 自定义驱动程序类名称:net.starschema.clouddb.jdbc.BQDrive
  • 用户名:pentaho-data-integration@secretproject.iam.gserviceaccount.com
  • 密码:/Users/luisfsns/Dropbox/Lendico/etl/marketing/lendico-pentaho-data-integration-googlebigquery.p12

我不知道的事情:

  • 我的自定义连接 URL 名称是否正确?我应该提供什么作为投影参数?项目的名称或路径的 URL?有人可以给我一个例子吗?
  • 我应该使用任何其他身份验证方法(尽管是“服务帐户”)或任何其他类型的私钥,如 .json?
  • 我的自定义驱动程序类名称是否正确?

有人可以帮助我吗?

这是我尝试测试创建的连接时的日志:

连接数据库时出错 [Teste]:org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错

找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive

org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错

找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive

invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at apple.launcher.LaunchRunner.run(LaunchRunner .java:116) at apple.launcher.LaunchRunner.callMain(LaunchRunner.java:51) at apple.launcher.JavaApplicationLauncher.launch(JavaApplicationLauncher.java:52) 原因:org.pentaho.di.core.exception.KettleDatabaseException:找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 597) at apple.launcher.LaunchRunner.run(LaunchRunner.java:116) at apple.launcher.LaunchRunner.callMain(LaunchRunner.java:51) at apple.launcher.JavaApplicationLauncher.launch(JavaApplicationLauncher.java:52) 原因: org.pentaho.di.core.exception.KettleDatabaseException:找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 597) at apple.launcher.LaunchRunner.run(LaunchRunner.java:116) at apple.launcher.LaunchRunner.callMain(LaunchRunner.java:51) at apple.launcher.JavaApplicationLauncher.launch(JavaApplicationLauncher.java:52) 原因: org.pentaho.di.core.exception.KettleDatabaseException:找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive

在 org.pentaho.di.core.database.Database.connectUsingClass(Database.java:522) 在 org.pentaho.di.core.database.Database.connectUsingClass(Database.java:4697) 在 org.pentaho.di.core .database.Database.normalConnect(Database.java:414) ... 70 更多原因:java.lang.ClassNotFoundException: net.starschema.clouddb.jdbc.BQDrive at java.net.URLClassLoader$1.run(URLClassLoader.java: 202) 在 java.security.AccessController.doPrivileged(Native Method) 在 java.net.URLClassLoader.findClass(URLClassLoader.java:190) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:306) 在 java.lang.ClassLoader .loadClass(ClassLoader.java:247) at org.pentaho.di.core.database.Database.connectUsingClass(Database.java:497) ... 72 更多

自定义 URL:
jdbc:BQDriver:projectid(secretproject)?withServiceAccount=true 自定义驱动类:net.starschema.clouddb.jdbc.BQDrive

0 投票
4 回答
2316 浏览

pentaho - 如何在pentaho中使用csv输入固定列重新排序列

设想:

我创建了转换以将数据从 csv 文件加载到表中,并且在 csv 文件中有以下列:

  1. 客户ID
  2. Company_Id
  3. 员工姓名

但是用户可以给输入文件的列排序(随机顺序)为

  1. 员工姓名
  2. Company_Id
  3. 客户ID

所以,如果我尝试加载具有随机列顺序的文件,水壶会根据列名加载正确的列值......?