3

我有一个包含近 2.5 亿个字符的大文件。现在,我想将其拆分为每个包含 3000 万个字符的部分(因此前 8 个部分将包含 3000 万个字符,最后一部分将包含 1000 万个字符)。另一点是我想在下一部分的开头包含每个文件的最后 1000 个字符(意味着第 1 部分的最后 1000 个字符附加在第 2 部分的开头 - 所以,第 2 部分包含 3000 万个 1000 个字符,依此类推)。任何人都可以帮助我如何以编程方式(使用Java)或使用Linux命令(以快速方式)。

4

4 回答 4

2

一种方法是使用常规的 unix 命令来拆分文件,并在前一个文件中添加最后 1000 个字节。

首先拆分文件:

split -b 30000000 inputfile part.

然后,对于每个部分(忽略最远的创建一个新文件,该文件从上一个文件的最后 1000 个字节开始:

unset prev
for i in part.*
do if [ -n "${prev}" ]
  then 
    tail -c 1000 ${prev} > part.temp
    cat ${i} >> part.temp
    mv part.temp ${i}
  fi
  prev=${i}
done

在组装之前,我们再次遍历文件,忽略第一个并丢弃前 1000 个字节:

unset prev
for i in part.*
do if [ -n "${prev}" ]
  then 
    tail -c +1001 ${i} > part.temp
    mv part.temp ${i}
  fi
  prev=${i}
done

最后一步是重新组装文件:

cat part.* >> newfile

由于没有解释为什么需要重叠,我只是创建了它,然后把它扔掉了。

于 2012-06-24T19:10:37.707 回答
2

只需使用适当的选项splitcsplit命令。

您可能希望使用更复杂的 shell 脚本或使用其他脚本语言来驱动这些程序,为它们提供适当的参数(特别是处理您的重叠需求)。也许您可以将它们与其他实用程序(如grepor heador tailor or sedor awketc....)结合使用。

于 2012-06-24T18:28:56.227 回答
2

你可以试试这个。我必须第一次使用读取/模式,因为文件一开始不存在。您可以按照此代码的建议使用只读。

long start = System.nanoTime();
long fileSize = 3200 * 1024 * 1024L;
FileChannel raf = new RandomAccessFile("deleteme.txt", "r").getChannel();
long midPoint = fileSize / 2 / 4096 * 4096;
MappedByteBuffer buffer1 = raf.map(FileChannel.MapMode.READ_ONLY, 0, midPoint + 4096);
MappedByteBuffer buffer2 = raf.map(FileChannel.MapMode.READ_ONLY, midPoint, fileSize - midPoint);
long time = System.nanoTime() - start;
System.out.printf("Took %.3f ms to map a file of %,d bytes long%n", time / 1e6, raf.size());

这是在具有 4 GB 内存的 Window 7 x64 机器上运行的。

Took 3.302 ms to map a file of 3,355,443,200 bytes long
于 2012-06-24T19:25:25.573 回答
1

您可以使用 BreakIterator 类及其静态方法 getCharacterInstance() 来完成。它为默认语言环境的字符中断返回一个新的 BreakIterator 实例。

您还可以使用 getWordInstance()、getLineInstance().. 来分词、换行...等

例如:

BreakIterator boundary = BreakIterator.getCharacterInstance();

boundary.setText("Your_Sentence");

int start = boundary.first();

int end = boundary.next();

Iterate over it... to get the Characters....

For more detail look at this link:

http://docs.oracle.com/javase/6/docs/api/java/text/BreakIterator.html

于 2012-06-24T18:59:02.937 回答