0
str="Tick for symbol .ISEQ-IDX descriptor id 1 timestamp_sec 20130628030105 timestamp_usec 384000;EXCH_TIME 1372388465384;SENDING_TIME  0;PRICE 3957.890000;MIC XDUBIND;"

我无法控制更改此字符串的创建方式的格式。

我试过了,但我无法真正获得第一个键“Tick for symbol”、“timestamp_sec”等的值。

不仅在这个特定的字符串中,而且我很好奇如何解析具有多个正则表达式拆分的字符串。任何帮助将不胜感激。

   String[] s = line.split(";");
    Map<String, String> m = new HashMap<String, String>();
    for (int i = 0; i < s.length; i++)
    {
          String[] split = s[i].split("\\s+");
          for (String string2 : split)
          {
             //Adding key value pair. to a map for further usage. 
           m.put(split[0], split[1]);
          }

    }

将所需的输出编辑
到地图
中:(符号的刻度,.ISEQ-IDX)
(描述符 id,1)
(timestamp_sec,20130628030105)
(timestamp_usec,384000)
(EXCH_TIME,1372388465384)
(SENDING_TIME,0)
(PRICE,3957.890000)
(MIC , XDUBIND)

4

3 回答 3

3

下面的呢?您指定键值模式对的列表。键直接指定为字符串,值指定为正则表达式。然后你遍历这个列表并在文本中搜索键,然后是值模式,如果你找到它,你就提取值。

我假设键可以按任何顺序排列,不必全部存在,可能有多个空格将它们分开。如果你知道键的顺序,你总是可以从前一个结束find的地方开始。find如果您知道所有密钥都是强制性的,那么如果您没有找到所需的内容,则可以抛出异常。

    static String test="Tick for symbol .ISEQ-IDX descriptor id 1 timestamp_sec 20130628030105 timestamp_usec 384000;EXCH_TIME 1372388465384;SENDING_TIME  0;PRICE 3957.890000;MIC XDUBIND;";

    static List<String> patterns = Arrays.asList(
        "Tick for symbol", "\\S+",
        "descriptor id", "\\d+",
        "timestamp_sec", "\\d+",
        "timestamp_usec", "\\d+",
        "EXCH_TIME", "\\d+",
        "SENDING_TIME","\\d+",
        "PRICE", "\\d+.\\d",
        "MIC", "\\S+"
      );


        public static void main(String[] args) {
            Map<String,String> map = new HashMap<>();

            for (int i = 0; i<patterns.size();i+=2) {
                String key = patterns.get(i);
                String val = patterns.get(i+1);
                String pattern = "\\Q" +key + "\\E\\s+(" + val + ")";
                Matcher m = Pattern.compile(pattern).matcher(test);

                if (m.find()) {
                    map.put(key, m.group(1));
                }
            }
            System.out.println(map);

        }
于 2013-07-01T22:08:36.413 回答
1

使用 java.util.regex 包中的类,在此java Regex 教程Pattern中逐步描述:

private static final Pattern splitPattern = Pattern.compile("^Tick for symbol (.*) descriptor id (\\d+) timestamp_sec (\\d+) timestamp_usec (\\d+);EXCH_TIME (\\d+);SENDING_TIME  ?(\\d+);PRICE (.*);MIC (\\w+);$");

private static String printExtracted(final String str) {
  final Matcher m = splitPattern.matcher(str);
  if (m.matches()) {
    final String tickForSymbol = m.group(1);
    final long descriptorId = Long.parseLong(m.group(2), 10);
    final long timestampSec = Long.parseLong(m.group(3), 10);
    final long timestampUsec = Long.parseLong(m.group(4), 10);
    final long exchTime = Long.parseLong(m.group(5), 10);
    final long sendingTime = Long.parseLong(m.group(6), 10);
    final double price = Double.parseDouble(m.group(7));
    final String mic = m.group(8);
    return "(Tick for Symbol, " + tickForSymbol + ")\n" +
         "(descriptor id, " + descriptorId + ")\n" +
         "(timestamp_sec, " + timestampSec + ")\n" +
         "(timestamp_usec, " + timestampUsec + ")\n" +
         "(EXCH_TIME, " + exchTime + ")\n" +
         "(SENDING_TIME, " + sendingTime +")\n" +
         "(PRICE, " + price + ")\n" +
         "(MIC, " + mic + ")";
  } else {
    throw new IllegalArgumentException("Argument " + str + " doesn't match pattern.");
  }
}

编辑:使用group而不是replaceAll因为它更有意义,而且速度也更快。

于 2013-07-01T22:17:00.720 回答
1

我不认为正则表达式会在这里帮助你,设计输出字符串的人显然没有考虑分裂。

我建议简单地使用循环解析字符串并手动完成整个操作。或者,您可以只查看字符串中的子字符串(就像“Tick for symbol”一样),然后取后面的任何单词(直到下一个空格),因为第二个参数似乎总是一个单词。

于 2013-07-01T21:58:19.610 回答