问题标签 [syncsort-dmx-h]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
116 浏览

hadoop - hadoop中的MR作业后数据如何映射到输出文件中?

我有一个输入文件,其中一列作为 ID,另一列作为计数器值。根据计数器值,我正在过滤从输入到输出文件的数据。我在 DMExpress 中做了一个任务并检查了计数器和 ID。输入文件中的每个 id 有 10 行。如果每个 id 的计数器值为 3,那么我将提取此 ID 的前 3 行,然后检查下一个 ID。在 hadoop 中运行此任务时,Hadoop 会获取多个 ID 的前 3 条记录,并为其他 ID 创建新文件(当达到所需大小时)。

现在,当 hadoop 在文件 0 中写入记录时,它正在为 ID X 提取 3 条记录,但是当它正在写入输出文件的另一部分(文件 1)时,它正在写入 ID X 的第一条记录上一个文件(位于文件 0 的最后一行。它是 ID X 的第 4 条记录)。这反过来增加了我在输出文件中的记录数。

例如:这是输入文件中的记录。

hadoop 创建的输出文件如下:

* ID 的第 4 行:XXXX 不应该在那里!为什么 hadoop 没有正确过滤计数器?

0 投票
1 回答
156 浏览

syncsort-dmx-h - Syncsort 加入两个文件

我正在尝试基于一个键加入两个文件,并根据一个条件在结果中添加一个新列,但我无法弄清楚为什么我的命令条件不起作用。请帮助我理解这样做的正确方法。

一个.txt

b.txt

同步排序命令

预期结果

实际结果

0 投票
1 回答
89 浏览

linux - syncsort(dmxexpress) 产生奇怪的输出

我正在尝试排序:

1

4

11

10

2

3

使用同步排序。结果如下所示:

1

10

11

2

3

4

如何解决这个问题。

我使用了命令:

syncsort /workspace /mytmp/ /infile /work/in_test /fields fld1 1 char 4 /keys fld1 升序 /outfile /work/out_test 覆盖 /noprompt /end

0 投票
0 回答
251 浏览

hadoop - 如何在 Sqoop + OpenSource Syncsort 中指定 COBOL 字帖

我正在尝试将一些 VSAM 文件从大型机导入 Hive。

https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_ purpose_3

我发现 Sqoop 1.4.6 包含 Syncsort 作为开源贡献者。我浏览了文档,我不清楚是否可以在此版本中包含 COBOL 抄写本。

有没有人尝试过这样做或知道替代方案?