问题标签 [data-integration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 需要每个每日报告仅显示上次报告运行后扫描的文档
我希望每份每日报告仅显示在上次报告运行后扫描的文档。我不希望报告是所有以前文件的总和。
ARG_REPORT 是输出,但给出了数据中的所有变量。只需要今天的扫描数据。我能做些什么?谢谢!
pentaho - Pentaho 中的复制文件步骤
我有一个使用复制文件步骤的工作,该步骤将文件从经过身份验证的服务器复制到另一个 Windows 服务器。当我从本地运行作业时,它似乎运行良好,但是当我将作业放入服务器并运行它时,会引发错误。
关于放置在服务器上时如何使作业运行的任何想法?
提前致谢。
java - 为什么 Pentaho 开关盒在运行后不会损坏?
我内置了 switch casePentaho
来运行预定的 case 来改变参数值。
问题是Pentaho
执行后不要中断case
。所以它运行所有案例!不仅是必需的情况。
我附上了输出文本文件的开关盒示例。
当我运行Transform
. 开关盒运行所有案例而没有任何中断。它输出三个文本文件!
那么我该怎么做才能解决这些问题呢?我知道Pentaho Transfrom
运行Parallel
,但为什么它不会破坏开关盒!?
这是.ktr
文件内容:
谢谢,
sql - 以桶的形式产生新的需求
我有一个要求,其中有几个与一个主要办公室相关联的办公室的预测值。例如,办公室 1、办公室 2、办公室 3 链接到主办公室。预测值是整个月的。现在我需要使用一些公式根据其链接办公室创建对主办公室的需求。
现在本月主要办公室所需输出 - ((officetotal1+officetotal2+officetotal3)/30)*5
这个相同的值必须以 3 个桶的形式用于月份,即 1st 11th 和 21st
映射 office mainoffice ------ --------- office1 mainoffice1/n
office2 mainoffice1/n
office3 mainoffice2/n
pentaho - Pentaho:如何逐行读取SQL结果来一一执行?
我使用表输入为从数据库中的表中选择行数据构建了一个简单的转换。
我知道表输入一次返回所有结果。但我需要做的是逐行获取结果并继续该过程,然后返回下一行,依此类推。
所以有什么想法吗?
sas - SAS 中的 Blob 字段被截断
我一直在从事一项 SAS 工作,该工作从 SQL Server 中提取表,然后将该表加载到 Oracle 表中。
SQL Server 中的字段之一是 blob,它们可以大到 1G。当我在 oracle 表上运行此 blob 时收到长度警告,似乎已被截断,因此文件已损坏。
我已经看到 SAS 声明字符变量可以最大为 32K,但 SAS 也声明它可以访问高达 2G 的 blob。
我们怎样才能做到这一点?
这是数据步骤
etl - 数据集成:将数据转化为标准格式
我正在尝试使用 ETL 工具(Talend)进行数据集成过程。
我面临的挑战是当我尝试将来自不同来源(不同格式)的数据转换为单一格式时。
源可能有不同的列名和结构(顺序、数据类型等)。所以不同的元数据。在我看来,这是一个非常普遍的情况。但是该工具无法处理它,因为它不提供任何动态映射功能。
处理这种情况的最佳方法是什么?
etl - Talend:处理列的顺序
我正在设计 Talend(ETL 工具)中的工作。传入的数据可能具有不同顺序的列。
我该如何处理?我想将它们映射到一个静态目标(我为此使用 tMap)。另外,我需要注意列数(可能少于或多于预期)
sap - 如何使用 YYYY 获取 0001 而不是 2001
我有一列具有不同的时间戳,例如:
5771.10.04 16:07:23.800913000
0967.06.17 06:20:28.800906000
3857.06.18 03:49:03.800906000
01.04.29 16:45:04.400909000
我需要将这些转换为小数(我用于连接数百万行),如下所示:
57711004160723800913
9670617062028800906
38570618034903800906
10429164504400909
我使用这个函数来做到这一点:
cast(substr(to_char($timestamp,'YYYYMMDDHH24MISSFF'),1,20),'decimal(20,0)');
问题是最后一个时间戳,它只有两位数字表示发生 YYYY 转换的年份。我需要将 01 转换为 0001,而不是将其转换为 2001。
有什么想法可以以快速/非密集的方式解决这个问题吗?
Tl;博士我需要将 01 年转换为 0001 年,而不是 BODS 中的 2001 年。
hadoop - 无法使用 PDI 步骤连接到 HDFS
我已经在Windows 8系统的Ubuntu 14.04 VM中成功配置了Hadoop 2.4 。Hadoop 安装工作非常好,而且我可以从我的 Windows 浏览器查看 Namenode。附图如下:
所以,我的主机名是:ubuntu 和 hdfs 端口:9000(如果我错了,请纠正我)。
核心站点.xml:
问题出在从我的 Pentaho 数据集成工具连接到 HDFS 时。附图如下。 PDI 版本:4.4.0 使用的步骤:Hadoop 复制文件
请帮助我使用 PDI 连接到 HDFS。我需要为此安装或更新任何 jar 吗?如果您需要更多信息,请告诉我。