我写了一个应用程序,它在它的一个模块中解析巨大的文件并将这个文件逐块保存到数据库中。
首先,以下代码有效,我的主要问题是减少内存使用和总体性能提高。
下面的代码片段只是大图的一小部分,但是在进行了一些 YourKit 分析之后问题最大,由/*Here*/标记的行分配了大量的内存。
....
Scanner fileScanner = new Scanner(file,"UTF-8");
String scannedFarm;
try{
Pattern p = Pattern.compile("(?:^.++$(?:\\r?+\\n)?+){2,100000}+",Pattern.MULTILINE);
String [] tableName = null;
/*HERE*/while((scannedFarm = fileScanner.findWithinHorizon(p, 0)) != null){
boolean continuePrevStream = false;
Scanner scanner = new Scanner(scannedFarm);
String[] tmpTableName = scanner.nextLine().split(getSeparator());
if (tmpTableName.length==2){
tableName = tmpTableName;
}else{
if (tableName==null){
continue;
}
continuePrevStream = true;
}
scanner.close();
/*HERE*/ InputStream is = new ByteArrayInputStream(scannedFarm.getBytes("UTF-8"));
....
分配大量内存是可以接受的,因为字符串很大(我也需要这么大的块),我的主要问题是由于getBytes,相同的分配发生了两次,
所以我的问题是他们将findWithinHorizon Result 直接传输到InputStream而不分配内存两次的方法?
他们是实现相同功能的更有效方式吗?