问题标签 [kettle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - Pentaho Kettle 脚本选项
我正在尝试使用 Pentaho Kettle 软件对我的大表进行一些转换。我想执行一个操作,在两个不同的表中显示交替行的内容,然后我希望稍后加入这两个表以进行进一步的转换。
该工具中的脚本选项可帮助我执行单行或多行的 SQL 脚本。任何人都可以帮助我如何为此目的选择行。
xstream - 在 Kettle 下使用 xstream 时 nodecom.thoughtworks.xstream.mapper.CannotResolveClassException
我在 Kettle 下使用 XStream 将 XML 反序列化为 Java 对象,它总是给我一个例外:
nodecom.thoughtworks.xstream.mapper.CannotResolveClassException
然后我将我的代码与 Kettle 分开并作为一个简单的 Java 应用程序进行了尝试。它工作正常。例如:
这段代码运行良好。但是,当我将此代码移动到 Kettle 插件中时,它无法从 XML 文件中读取元数据。
geospatial - Pentaho Geokettle 和地理空间分析教程/电子书
在配置 geokettle 时,我正在寻找可以参考的好资源。安装中的 docs 文件夹不包含用户指南。我用谷歌搜索教程无济于事。搜索 community.pentaho.com 似乎没有产生任何有用的结果。安装中的示例文件夹包含一些示例,但我还没有完全找到我要查找的内容:例如,从数据库中提取数据并将其显示在地图上。
另一方面,如果最好在 pentaho 社区版中使用单独的地理空间分析工具并集成到 BI Server,也欢迎您提出建议。
任何形式的参考都将被接受。
伦比
java - Pentaho 水壶:如何为转换/作业设置测试?
我已经使用 Pentaho Kettle 很长一段时间了,以前我所做的转换和工作(使用勺子)非常简单,从 db 加载、重命名等,将内容输入到另一个 db。但是现在我一直在做一些更复杂的计算的转换,我现在想以某种方式进行测试。
所以我想做的是:
- 设置一些测试数据
- 运行转换
- 验证结果数据
一种选择可能是制作一个测试转换的 Kettle 测试工作。但由于我的转换与 java 项目有关,我更愿意从 jUnit 运行测试。所以我考虑过做一个 jUnit 测试:
- 设置测试数据(使用 dbunit)
- 运行转换(从命令行使用 kitchen.sh)
- 验证结果数据(使用 dbunit)
但是,这种方法需要测试数据库,这些数据库并不总是可用(oracle 等昂贵/遗留数据库)我更喜欢的是,如果我可以模拟或将一些存根测试数据传递给我的输入步骤。
关于如何测试 Pentaho 水壶转换的任何其他想法?
web-services - 如何使用 Pentaho PDI(Kettle 版本 4.2.1)访问谷歌分析数据 API
当我使用 Google Analytics 输入步骤时,我只需输入我的帐户用户名和密码即可进行授权。从那里,该步骤为我查找域表 ID。因此,只需在这一步提供我的用户名和密码,选择 id 和指标,我就可以检索我需要的所有信息——无需其他授权。
但是,我试图通过使用 HTTP Client Lookup 步骤(在它之前有一个 Generate Rows 步骤)来重新创建它。我给了它以下 URL,如http://code.google.com/apis/analytics/docs/gdata/v3/reference.html所述:
并分别用我的用户名和密码填写 Http Login 和 Http Password 字段(与 Google Analytics Input 步骤中的完全相同)。但是,当我预览此 HTTP 客户端步骤的结果时,转换会返回一个错误,指出需要登录。
我也尝试过使用 REST 客户端查找步骤(之前有生成行步骤)。我选择了 GET HTTP 方法,JSON 应用程序类型,并填写了我的 HTTP 登录名和密码进行身份验证。当我尝试运行它时,它不会返回错误,但在预览输出的结果字段中显示“无效凭据”。
Google Analytics 输入步骤与 HTTP 客户端查找和 REST 客户端查找步骤有何不同?以及如何使用这些查找步骤访问相同的信息?
我也希望能够从其他网站访问 API,而不仅仅是从 Google Analytics 访问,因此能够对任何 API 执行此操作对我来说很重要。
任何帮助表示赞赏!
etl - 如何使用 pentaho 水壶从一组行中找到唯一值?
我有一张去规范化的表格。我想从该表的一个特定列中选择所有值,并将该列中的唯一值加载到单独的表中。
如何使用 Pentaho Spoon 做到这一点?请注意,我是 Spoon 的新手。我一生中只尝试过 hello world 转换。
我有一个名为“Employees”的表,它有很多列如下(我在这里没有给出不相关的列):
现在我只想将唯一的分支名称移动到branches
使用 Spoon 命名的新表中。
“分支”表如下所示:
其中 branch_id 将是唯一的并自动递增。
要连接Employees
和branches
表格,我将使用Employee_branch
由employee_number
和branch_id
列组成的表格。
谁能告诉如何做到这一点?
提前致谢 !!
xml - Pentaho - 它可以处理 XML 属性的操作吗?
我正在考虑使用 Pentaho/Kettle 进行数据摄取。我已经遇到了问题,但我不确定这是工具的问题还是我缺乏知识。
我已经弄清楚如何创建转换并从 XML 文件中读取数据,这是我转换的第一部分。不幸的是,我的 XML 有点像这样:
我正在使用从 XML 步骤中输入/获取数据,虽然我可以让它正确显示所有类别和 firstnode/secondnode 值,但我什至找不到任何方法来查看属性 rownum 和 someattribute。
Kettle 是否能够处理 XML 属性并允许您在转换步骤中使用它们?如果是这样,如何或有人可以向我展示有关该主题的文档?(我找不到任何东西)。
dependencies - Kettle 中的 Jar 依赖管理
有没有办法在调用 jar 文件时在 Kettle 中指定依赖的 jar?还是我必须包括所有依赖的罐子,罐子被水壶调用?
谢谢!
java - 使用kettle扩展,并发问题
我假装扩展我的应用程序,并且该过程的某些部分包括由一些处理客户端同时运行水壶作业,在某些点转换需要在某些共享表上执行组合查找(假设“clients_table”),该表快速增长是由于所有可能的客户都是未知的,因此它们被插入作为显示。在此表上同时执行作业(假设 2 个,但可能不止于此,每个客户端每个客户端)的组合查找,由于我想在插入非现有客户端时出现“重复的条目键 xxx”错误(当组合查找时),它会出现并发问题没有在表中找到它们来检索它的 ID)。事实上,每次处理客户端执行水壶作业时都会转移新客户端,因此上述问题很常见。我想知道我是否打破了水壶哲学或者我遗漏了一些东西,我读过关于使水壶转换事务性,这可能是我的解决方案,因为我认为正在发生的事情是组合查找步骤不是事务性的?给我一些想法。
PS:我正在使用 Kettle 4.2 和 MySql 5.2
integration - Pentaho Kettle 错误:“错误关闭准备好的语句”
有一个 Pentaho 数据集成 (Kettle) 作业,我试图在客户端的工作站上运行。它产生以下错误:
该作业在我的计算机上的测试数据库上运行良好,并且在客户端上运行也没有任何问题。其他 Kettle Jobs 也会在客户端失败,并出现相同的错误。
在完成任意数量的更新后,错误发生在更新步骤(运行 SQL UPDATE 语句)中。使用的数据库是 Firebird 2.5.1.26351(超级经典)。
关于为什么会发生这种情况的任何建议?