5

我有一个令人费解的情况,我需要专家的意见来解释下面解释的现象的原因。几周前,我举办了一场题为“Java 开发人员概述 .NET”的会议,作为其中的一部分,我编写了一个快速的 C# 类(3.5 框架)来逐行读取文件并写入另一个文件(在迭代中)。由于我的听众是 Java 开发人员,因此我在 Java 类中使用相同的代码进行并排比较。然而,当我在同一台机器上运行这些类时,令我惊讶的是,java 代码的运行速度始终是 C# 代码的两倍。我在 C# 代码中尝试了许多优化以缩小差距,但未能成功。必须有一个解释,我正在寻找可以解释原因的人。我附上了这两个类的源代码供您参考。


Java 类

    public class ReadWriteTextFile {

    static public String getContents(File aFile, String OutPutFileName) {
    StringBuilder contents = new StringBuilder();

    try {
      BufferedReader input =  new BufferedReader(new FileReader(aFile));
      FileReader x = new FileReader(aFile);
      try {
        String line = null;
        while (( line = input.readLine()) != null){
              setContents(OutPutFileName, line + System.getProperty("line.separator"));
        }
      }
      finally {
        input.close();
      }
    }
    catch (IOException ex){
      ex.printStackTrace();
    }

    return contents.toString();
    }

  static public void setContents(String FileName, String aContents)
                                 throws FileNotFoundException, IOException { 
    try {
        FileWriter fstream = new FileWriter(FileName, true);
        BufferedWriter out = new BufferedWriter(fstream);
        out.write(aContents);
             out.close();
    } catch (Exception xe) {
        xe.printStackTrace();
    }
  }
  public static void main (String[] aArguments) throws IOException {

    System.out.println(getDateTime() + ": Started");
    File testFile = new File("C:\\temp\\blah.txt");
         String testFile2 = "C:\\temp\\blahblah.txt";

    for(int i=0; i<100; i++){
         getContents(testFile, testFile2);
     }

    System.out.println(getDateTime() + ": Ended");

  }

  private synchronized static String getDateTime() {
        DateFormat dateFormat = new SimpleDateFormat(
                                        "yyyy/MM/dd HH:mm:ss");
        Date date = new Date();
        return dateFormat.format(date);
    }
}

C# 类

class ReadWriteTextFile
{
    static void Main(string[] args)
    {
        System.Diagnostics.Trace.WriteLine(getDateTime() + ": Started");
        String testFile = "C:\\temp\\blah.txt";
        String testFile2 = "C:\\temp\\blahblah.txt";
        for(int i=0; i<100; i++){
            getContents(testFile, testFile2);
        }
        System.Diagnostics.Trace.WriteLine(getDateTime() + ": Ended");
    }

    static public void getContents(String sourceFile, String targetFile) {      
        try {
            using (StreamReader r = File.OpenText(sourceFile))
            {
                String line;
                while ((line = r.ReadLine()) != null)
                {
                    setContents(targetFile, line);
                }
                r.Close();
            }
    }
    catch (IOException ex){
        Console.WriteLine(ex.StackTrace);
    }
  }

  static public void setContents(String targetFile, String aContents)
  {

    try {
        //FileStream fsO = new FileStream(targetFile, FileMode.Append);
        //StreamWriter w = new StreamWriter(fsO);
        FileStream fs = new FileStream(targetFile, FileMode.Append,
                                FileAccess.Write, FileShare.None);
        using (StreamWriter w = new StreamWriter(fs))
        {
            w.WriteLine(aContents + "\n");
        }
    } catch (Exception xe) {
        Console.WriteLine(xe.StackTrace);
    }
  }

  private static String getDateTime() {
      DateTime dt = DateTime.Now;
      return dt.ToString("yyyy/MM/dd HH:mm:ss");
   }
}

4

3 回答 3

8

一方面:在 Java 中,您使用的是平台的默认编码。这很可能是一个固定的“每个字符一个字节”编码,这显然比使用 .NET 默认使用的 UTF-8 更简单。

此外,您在 .NET 中编写了两条换行符,而在 Java 中只编写了一条。

要检查的一件事是您是否受 CPU 限制或 IO 限制。我希望这是受 IO 限制的,但在此之前我肯定感到惊讶。

最后,您应该在重新启动后运行每个测试,以尝试尽可能从等式中删除磁盘缓存。

于 2009-06-23T13:08:32.573 回答
3

我在这里看不到任何代码问题。一些可能性:您可能在调试模式下运行了 C# 代码?文件缓存存在问题。C# 数据文件在严重碎片化的磁盘区域上运行。对于这样一个简单的 C# 程序,我不希望有一半的速度。

编辑:我在 10439 字节 blah.txt 上尝试了这两个版本。生成的文件长 1 043 900 字节。

C# (CTRL+F5) 时间为 18 秒
C# (F5) 时间为 22 秒
Java 时间为 17 秒。

这两个应用程序占用了大约 40% 的 CPU 时间,其中一半是内核时间。

Edit2: CPU 限制是由于代码不断打开、关闭和写入小块数据。这会导致大量托管本机和用户内核模式转换。

我的系统规格:Core 2 Duo 2.4GHz,2 GB 800MHz RAM,WinXP SP3

于 2009-06-23T13:11:37.760 回答
2

基准测试的缓慢部分看起来好像是一个文件被反复打开、修饰、小写并再次关闭。不是一个有用的基准。明显的区别在于缓冲区有多大(一次写入,您实际上不需要任何缓冲区)以及生成的文件是否同步到磁盘。

于 2009-06-23T13:15:25.803 回答