2

我们在读取嵌入在 Pentaho ETL 中的 Java 中的 COMP-3 数据时面临挑战。在平面文件中,很少有浮点值与其他纯文本一起存储为压缩小数。虽然可以正确阅读纯文本,但我们尝试使用Charset.forName("CP500");,但它从未奏效。我们仍然得到垃圾字符。

由于 Pentaho 脚本不支持 COMP-3,因此在他们的论坛中他们建议使用User Defined Java class. 如果您遇到并解决了此类问题,有人可以帮助我们吗?

4

1 回答 1

1

它是 Cobol 文件吗???,你有 Cobol Copybook 吗???。可能的选项包括

  1. 正如比尔所说,将源计算机上的 Comp-3 转换为文本
  2. 编写自己的转换代码
  3. 使用像JRecord这样的库。注:我是JRecord的作者

转换 Comp-3

在 Comp-3 中,

Value    Comp-3 (signed)   Comp-3 (Unsigned)   Zoned-Decimal
 123     x'123c'           x'123f' ??            "12C"
-123     x'123d'                                 "12L" 

将 comp-3 转换为十进制整数的方法不止一种。一种方法是

  1. 转换 x'123c' ->> 字符串 "123c"
  2. 删除最后一个字符并测试符号

用于转换 comp3 的 Java 代码(来自字节数组:

        public static String getMainframePackedDecimal(final byte[] record,
                                               final int start,
                                               final int len) {  

            String hex  = getDecimal(record, start, start + len);
                //Long.toHexString(toBigInt(start, len).longValue());
            String ret  = "";
            String sign = "";

            if (! "".equals(hex)) {
                switch (hex.substring(hex.length() - 1).toLowerCase().charAt(0)) {
                    case 'd' : sign = "-";
                        case 'a' :
                        case 'b' :
                        case 'c' :
                        case 'e' :
                        case 'f' :
                            ret = sign + hex.substring(0, hex.length() - 1);
                        break;
                        default:
                            ret = hex;
                }
            }

            if ("".equals(ret)) {
                ret = "0";
            }
        }

        public static String getDecimal(final byte[] record, final int start, final int fin) {
            int i;
            String s;
            StringBuffer ret = new StringBuffer("");
            int b;

            for (i = start; i < fin; i++) {
                b = toPostiveByte(record[i]);
                s = Integer.toHexString(b);
                if (s.length() == 1) {
                    ret.append('0');
                }
                ret.append(s);

            }

            return ret.toString();
        }

记录

JRecord中,如果您有 Cobol Copybook,则有

  • Cobol2Csv使用 Cobol Copybook 将 Cobol-Data 文件转换为 CSV 的程序
  • Data2Xml使用 Cobol Copybook 将 Cobol 数据文件转换为 Xml。
  • 使用 Cobol Copybook 读取 Cobol-Data 文件。
  • 读取带有 Xml 描述的固定宽度文件
  • 在 Java 中定义字段
在 JRecord 中使用 Cobol Copybook 阅读
        ICobolIOBuilder ioBldr = JRecordInterface1.COBOL
                .newIOBuilder(copybookName)
                    .setDialect( ICopybookDialects.FMT_MAINFRAME)
                    .setFont("cp037")
                    .setFileOrganization(Constants.IO_FIXED_LENGTH)
                .setDropCopybookNameFromFields(true);
        AbstractLine saleRecord;

        AbstractLineReader reader  = ioBldr.newReader(salesFile);
        while ((saleRecord = reader.read()) != null) {
            ....
        }

        reader.close();
使用 JRecord 在 Java 中定义文件
        AbstractLineReader reader = JRecordInterface1.FIXED_WIDTH.newIOBuilder()
                                .defineFieldsByLength()
                                    .addFieldByLength("Sku"  , Type.ftChar,   8, 0)
                                    .addFieldByLength("Store", Type.ftNumRightJustified, 3, 0)
                                    .addFieldByLength("Date" , Type.ftNumRightJustified, 6, 0)
                                    .addFieldByLength("Dept" , Type.ftNumRightJustified, 3, 0)
                                    .addFieldByLength("Qty"  , Type.ftNumRightJustified, 2, 0)
                                    .addFieldByLength("Price", Type.ftNumRightJustified, 6, 2)
                                .endOfRecord()
                                .newReader(this.getClass().getResource("DTAR020_tst1.bin.txt").getFile());
        AbstractLine saleRecord;

        while ((saleRecord = reader.read()) != null) {
        }

分区十进制

另一种 Mainframe-Cobol 数字格式是 Zoned-Decimal。这是一种文本格式,其中符号在最后一位上被过度输入。在分区十进制中, 123是“ 12C ”,而-123是“ 12L ”。

于 2016-02-15T21:00:03.820 回答