2

我有一组基于 picocli 的应用程序,我想将使用输出解析为结构化数据。到目前为止,我已经编写了三个不同的输出解析器,但我对其中任何一个都不满意(脆弱性、复杂性、扩展困难等)。关于如何干净地解析这种类型的半结构化输出有什么想法吗?

使用输出通常如下所示:

Usage: taker-mvo-2 [-hV] [-C=file] [-E=file] [-p=payoffs] [-s=millis] PENALTY
                    (ASSET SPREAD)...
Submits liquidity-taking orders based on mean-variance optimization of multiple
assets.
      PENALTY             risk penalty for payoff variance
      (ASSET SPREAD)...   Spread for creating market above fundamental value
                            for assets
  -C, --credential=file   credential file
  -E, --endpoint=file     marketplace endpoint file
  -h, --help              display this help message
  -p, --payoffs=payoffs   payoff states and probabilities (default: .fm/payoffs)
  -s, --sleep=millis      sleep milliseconds before acting (default: 2000)
  -V, --version           print product version and exit

我想将程序名称和描述、选项、参数和参数组及其描述捕获到agent

public class Agent {
    private String name;
    private String description = "";
    private List<Option> options;
    private List<Parameter> parameters;
    private List<ParameterGroup> parameterGroups;
}

程序名称taker-mvo-2和(可能是多行的)描述在(可能是多行的)参数列表之后:

Submits liquidity-taking orders based on mean-variance optimization of multiple assets.

选项(在方括号中)应该被解析为:

public class Option {
    private String shortName;
    private String parameter;
    private String longName;
    private String description;

}

解析选项的 JSON 是:

options: [ {
  "shortName": "h",
  "parameter": null,
  "longName": "help",
  "description": "display this help message"
}, {
  "shortName": "V",
  "parameter": null,
  "longName": "version",
  "description": "print product version and exit"
}, {
  "shortName": "C",
  "parameter": file,
  "longName": "credential",
  "description": "credential file"
}, {
  "shortName": "E",
  "parameter": file,
  "longName": "endpoint",
  "description": "marketplace endpoint file"
}, {
  "shortName": "p",
  "parameter": payoffs,
  "longName": "payoffs",
  "description": "payoff states and probabilities (default: ~/.fm/payoffs)"
}]

同样对于应该解析成的参数:

public class Parameter {
    private String name;
    private String description;

}

和参数组,它们被包围(并且)...应该被解析为:

public class ParameterGroup {
    private List<String> parameters;
    private String description;

}

我编写的第一个手写解析器遍历缓冲区,在数据处理过程中捕获数据。它工作得很好,但看起来很可怕。而且扩展很可怕。第二个手写解析器在遍历缓冲区时使用正则表达式。比第一个更好看,但仍然丑陋且难以扩展。第三个解析器使用正则表达式。可能是这群人中最好看的,但仍然丑陋且难以管理。

我认为手动解析此文本非常简单,但现在我想知道 ANTLR 是否可能是一个更好的工具。有什么想法或替代想法吗?

4

1 回答 1

1

模型

听起来你需要的是一个模型。描述命令、其选项、选项参数类型、选项描述、选项名称以及位置参数、参数组和潜在子命令的类似对象模型。

然后,一旦您拥有应用程序的对象模型,将其呈现为 JSON 或其他格式相对简单。

Picocli 有一个对象模型

您可以自己构建它,但如果您仍然使用 picocli,为什么不利用 picocli 的优势并使用 picocli 的内置模型呢?

访问 picocli 的对象模型

  1. 命令可以访问自己的模型

在基于 picocli 的应用程序中,带注释的@Command类可以通过声明带注释的字段来访问其自己的 picocli 对象模型@Spec。Picocli 将注入该CommandSpec字段。

例如:

@Command(name = "taker-mvo-2", mixinStandardHelpOptions = true, version = "taker-mvo-2 0.2")
class TakerMvo2 implements Runnable {
    // ...

    @Option(names = {"-C", "--credential"}, description = "credential file")
    File file;

    @Spec CommandSpec spec; // injected by picocli

    public void run() {
        for (OptionSpec option : spec.options()) {
            System.out.printf("%s=%s%n", option.longestName(), option.getValue());
        }
    }
}

picocli 用户手册有一个更详细的示例,该示例使用CommandSpec来遍历命令中的所有选项,以查看该选项是否为默认选项,或者是否在命令行上指定了一个值。

  1. 创建任何 picocli 命令的模型

访问 picocli 的对象模型的另一种方法是使用-annotated 类(或该类的对象)构造一个CommandLine实例。@Command您可以在 picocli 应用程序之外执行此操作。

例如:

class Agent {
    public static void main(String... args) {
        CommandLine cmd = new CommandLine(new TakerMvo2());
        CommandSpec spec = cmd.getCommandSpec();
        
        // get subcommands
        Map<String,CommandLine> subCmds = spec.subcommands();
        
        // get options as a list
        List<OptionSpec> options = spec.options()

        // get argument groups
        List<ArgGroupSpec> argGroups = spec.argGroups()

        ...
    }
}
于 2020-08-31T01:14:39.387 回答