2

我对 Pentaho 数据集成进行了转换,我做的第一件事是使用“CSV 输入”来映射我的平面文件。

我在 Windows 上从来没有遇到过问题,但现在我正在将我的服务器换成勺子将运行到 linux 服务器上,现在我遇到了特殊字符的问题。

我注意到的第一件事是我的表正在更新,因为系统将名称理解为与我数据库中的名称不同的字符串。

检查问题时,我还注意到,如果我转到“CSV 输入”-> 预览,它将显示我的数据的预览,其中包含上述问题:

特殊字符不显示

它应该在哪里:

Diretoria de Suporte à Decisão e Aplicação

我使用命令检查了我的文件字符集/编码,它显示:

$ file -bi foo.csv
text/plain; charset=iso-8859-1

如果我在 vi 上打开 foo.csv,它会理解特殊字符。

关于可能是什么问题或我应该尝试什么的任何想法?

4

1 回答 1

2

我没有任何具有这种编码的数据文件,因此您必须进行一些试验,但有一些步骤旨在处理这些问题。

首先,该CSV Input步骤有一个允许您选择源文件编码的字段。该Text File Input步骤在“内容”选项卡下同时具有“格式”(表示行终止符)和“编码”选择器。

在 Transforms 中,您有Change file encodingUtility 选项卡下的步骤。此步骤旨在复制许多文件,同时更改其编码;这就是为什么它处于转换状态。

在 Jobs 中,Convert file between Windows and UnixFile Management 选项卡下有一个步骤,但这似乎只处理行终止符。

无论哪种方式,如果 CSV/文本文件输入步骤不符合您的需要,您必须在读取文件之前将文件复制到新编码。尝试使用文件输入步骤处理它可能是最简单的第一的。

于 2015-05-28T23:25:25.160 回答