1

我有一个从数据库中卸载的文件,无论列的实际内容如何,​​所有 varchar 列都被引号包围(不幸的是,卸载过程超出了我的控制)。

像这样:

1,"Alex ,/,awesome/,","chan"
2,"Peter ,boring","pitt"

在 pom 中使用以下代码与 univocity 2.2.3 时:

public class Sample {   

    public static void main(String[] args) throws IOException {
        BeanListProcessor<Person> rowProcessor = new BeanListProcessor<Person>(Person.class);
        CsvParserSettings parserSettings = new CsvParserSettings();
        parserSettings.setProcessor(rowProcessor);  
        parserSettings.getFormat().setDelimiter(',');
        parserSettings.getFormat().setQuote('"');
        parserSettings.getFormat().setQuoteEscape('/');     
        CsvParser parser = new CsvParser(parserSettings);
        parser.parse(new FileReader("src/main/resources/person.csv"));
        List<Person> beans = rowProcessor.getBeans();

        Writer outputWriter = new FileWriter("src/main/resources/personOut.csv", true);
        CsvWriterSettings settings = new CsvWriterSettings();
        settings.getFormat().setDelimiter(',');
        settings.getFormat().setQuote('"');
        settings.getFormat().setQuoteEscape('/');
        settings.getFormat().setCharToEscapeQuoteEscaping('\0');
        settings.setRowWriterProcessor(new BeanWriterProcessor<Person>(Person.class));      
        CsvWriter writer = new CsvWriter(outputWriter, settings);
        for (Person person : beans) {
            writer.processRecord(person);
        }
        writer.close();
    }
}

只有包含分隔符的列用引号括起来:

1,"Alex ,/,awesome/,",chan
2,"Peter ,boring",pitt

在编写器设置上使用settings.setQuoteAllFields(true);时,所有字段都被引号包围,但现在非 varchar 字段有问题。

无论列的内容如何(例如,分隔符存在或不存在),我如何只用引号将源中的引号包围的列括起来?

期望的结果:

1,"Alex ,/,awesome/,","chan"
2,"Peter ,boring","pitt"
4

1 回答 1

1

CSV 编写器没有提供明确的配置机制,但您可以执行以下操作:

用这个解析:

    parserSettings.setKeepQuotes(true);
    parserSettings.setKeepEscapeSequences(true);

这两个设置将有效地作为输入 CSV 的“拆分”操作 - 您将获得分隔符之间的全部内容。使用您的示例输入,这些值将被解析为:

1 | "Alex ,/,awesome/," | chan | 
2 | "Peter boring" | pitt | 

我使用管道来分隔上面的值,以便更容易看到结果。

现在,hacky 位,我不能保证这将适用于库的未来版本,因为它使用内部 API:CsvWriter有一个processRow可以覆盖的方法。由于您的输入值按照您希望的格式正确格式化,您可以通过用逗号连接每行的值来“按原样”将它们转储出来。只需执行以下操作:

CsvWriter writer = new CsvWriter(outputWriter, settings){
    @Override
    protected void processRow(Object[] row) {
        for(int i = 0; i < row.length; i++){
            Object value = row[i];
            appender.append(value.toString());
            if(i + 1 < row.length) { //not the last column
                appender.append(',');
            }
            appendValueToRow();
        }
    }
};

这将产生您期望的输出,但我不确定它是否非常有用,因为您只需要正确格式化输入并且对其进行更改会使事情变得相当复杂。

这里要做的适当的事情是向库中添加一个额外的配置选项,允许您配置是否引用给定的列。

于 2016-10-30T14:06:20.530 回答