我必须通过分析格式化结果来启发式地确定格式模式字符串。
例如我有这些字符串:
您有3条未读消息。
您有10条未读消息。
对不起,戴夫。恐怕我做不到。
对不起,弗兰克。恐怕我做不到。
这种说法是错误的。
我想派生这些格式字符串:
您有%s 条未读消息
对不起,%s。恐怕我做不到。
这种说法是错误的。
哪些方法和/或算法可以在这里帮助我?
我的第一个想法是使用机器学习的东西,但我的直觉告诉我这可能是一个相当经典的问题。
一些额外的要求:
%s
参数的类型无关紧要,即如果参数最初是,或者%d
如果它被填充或对齐,我不需要信息。- 可以有多个参数(或根本没有)
- 通常,数据由数千个格式化字符串组成,但只有几十个格式模式。