8

我正在考虑向 Oracle Bug 数据库提交 RFE(增强请求),这应该会显着提高字符串连接性能。但在我这样做之前,我想听听专家对它是否有意义的评论。

这个想法是基于这样一个事实,即现有的 String.concat(String) 在 2 个字符串上的工作速度是 StringBuilder 的两倍。问题是没有连接 3 个或更多字符串的方法。外部方法无法做到这一点,因为 String.concat 使用包私有构造函数String(int offset, int count, char[] value),它不复制 char 数组而是直接使用它。这确保了高 String.concat 性能。在同一个包中 StringBuilder 仍然不能使用这个构造函数,因为这样字符串的 char 数组将被暴露以进行修改。

我建议将以下方法添加到 String

public static String concat(String s1, String s2) 
public static String concat(String s1, String s2, String s3) 
public static String concat(String s1, String s2, String s3, String s4) 
public static String concat(String s1, String s2, String s3, String s4, String s5) 
public static String concat(String s1, String... array) 

注意:为了提高效率,在 EnumSet.of 中使用了这种重载。

这是其中一种方法的实现,其他的工作方式相同

public final class String {
    private final char value[];
    private final int count;
    private final int offset;

    String(int offset, int count, char value[]) {
        this.value = value;
        this.offset = offset;
        this.count = count;
    }

    public static String concat(String s1, String s2, String s3) {
        char buf[] = new char[s1.count + s2.count + s3.count];
        System.arraycopy(s1.value, s1.offset, buf, 0, s1.count);
        System.arraycopy(s2.value, s2.offset, buf, s1.count, s2.count);
        System.arraycopy(s3.value, s3.offset, buf, s1.count + s2.count, s3.count);
        return new String(0, buf.length, buf);
    }

另外,将这些方法添加到 String 后,Java 编译器

String s = s1 + s2 + s3;

将能够建立高效

String s = String.concat(s1, s2, s3); 

而不是当前的低效

String s = (new StringBuilder(String.valueOf(s1))).append(s2).append(s3).toString();

更新性能测试。我在我的笔记本 Intel Celeron 925 上运行它,连接 3 个字符串,我的 String2 类准确地模拟了它在真实 java.lang.String 中的样子。选择字符串长度以便将 StringBuilder 置于最不利的条件下,即当它需要在每次追加时扩展其内部缓冲区容量时,而 concat 总是只创建一次 char[]。

public class String2 {
    private final char value[];
    private final int count;
    private final int offset;

    String2(String s) {
        value = s.toCharArray();
        offset = 0;
        count = value.length;
    }

    String2(int offset, int count, char value[]) {
        this.value = value;
        this.offset = offset;
        this.count = count;
    }

    public static String2 concat(String2 s1, String2 s2, String2 s3) {
        char buf[] = new char[s1.count + s2.count + s3.count];
        System.arraycopy(s1.value, s1.offset, buf, 0, s1.count);
        System.arraycopy(s2.value, s2.offset, buf, s1.count, s2.count);
        System.arraycopy(s3.value, s3.offset, buf, s1.count + s2.count, s3.count);
        return new String2(0, buf.length, buf);
    }

    public static void main(String[] args) {
        String s1 = "1";
        String s2 = "11111111111111111";
        String s3 = "11111111111111111111111111111111111111111";
        String2 s21 = new String2(s1);
        String2 s22 = new String2(s2);
        String2 s23 = new String2(s3);
        long t0 = System.currentTimeMillis();
        for (int i = 0; i < 1000000; i++) {
            String2 s = String2.concat(s21, s22, s23);
//          String s = new StringBuilder(s1).append(s2).append(s3).toString();
        }
        System.out.println(System.currentTimeMillis() - t0);
    }
}

在 1,000,000 次迭代中,结果为:

version 1 = ~200 ms
version 2 = ~400 ms
4

3 回答 3

7

事实上,单个字符串连接表达式的性能很重要的用例并不常见。在大多数性能受字符串连接约束的情况下,它发生在一个循环中,逐步构建最终产品,在这种情况下,可变变量StringBuilder显然是赢家。这就是为什么我看不到通过干预基础String课程来优化少数人关注的提案的前景。但无论如何,就性能比较而言,您的方法确实具有显着优势:

import com.google.caliper.Runner;
import com.google.caliper.SimpleBenchmark;

public class Performance extends SimpleBenchmark
{
  final Random rnd = new Random();
  final String as1 = "aoeuaoeuaoeu", as2 = "snthsnthnsth", as3 = "3453409345";
  final char[] c1 = as1.toCharArray(), c2 = as2.toCharArray(), c3 = as3.toCharArray();

  public static char[] concat(char[] s1, char[] s2, char[] s3) {
    char buf[] = new char[s1.length + s2.length + s3.length];
    System.arraycopy(s1, 0, buf, 0, s1.length);
    System.arraycopy(s2, 0, buf, s1.length, s2.length);
    System.arraycopy(s3, 0, buf, s1.length + s2.length, s3.length);
    return buf;
  }

  public static String build(String s1, String s2, String s3) {
    final StringBuilder b = new StringBuilder(s1.length() + s2.length() + s3.length());
    b.append(s1).append(s2).append(s3);
    return b.toString();
  }

  public static String plus(String s1, String s2, String s3) {
    return s1 + s2 + s3;
  }

  public int timeConcat(int reps) {
    int tot = rnd.nextInt();
    for (int i = 0; i < reps; i++) tot += concat(c1, c2, c3).length;
    return tot;
  }

  public int timeBuild(int reps) {
    int tot = rnd.nextInt();
    for (int i = 0; i < reps; i++) tot += build(as1, as2, as3).length();
    return tot;
  }

  public int timePlus(int reps) {
    int tot = rnd.nextInt();
    for (int i = 0; i < reps; i++) tot += plus(as1, as2, as3).length();
    return tot;
  }

  public static void main(String... args) {
    Runner.main(Performance.class, args);
  }
}

结果:

 0% Scenario{vm=java, trial=0, benchmark=Concat} 65.81 ns; σ=2.56 ns @ 10 trials
33% Scenario{vm=java, trial=0, benchmark=Build} 102.94 ns; σ=2.27 ns @ 10 trials
67% Scenario{vm=java, trial=0, benchmark=Plus} 160.14 ns; σ=2.94 ns @ 10 trials

benchmark    ns linear runtime
   Concat  65.8 ============
    Build 102.9 ===================
     Plus 160.1 ==============================
于 2012-12-08T15:51:58.437 回答
4

如果您希望他们认真对待您,您需要努力完成全面实施、测试和彻底对您提议的更改进行基准测试。完整的实现将包括对 Java 编译器的更改,以发出字节码以使用您的方法。

写下结果,然后将代码更改作为补丁提交到 OpenJDK 7 或 8。

我的印象是 Java 开发人员没有资源来尝试像这样的优化的推测性想法。没有基准测试结果和代码补丁的 RFE 不太可能受到关注……

于 2012-12-08T14:44:39.720 回答
1

问他们总是可以的,别担心。

我不会有这么多重载版本。在 EnumSet 中,节省可能很重要;在字符串中不太可能如此。

实际上我认为允许任意数量的参数的静态方法更好

    public static String join(String... strings)

因为 args 的数量在编译时可能是未知的。

于 2012-12-08T17:04:29.410 回答