我正在从一项服务收集完整的 HTML,该服务提供对大量博客和新闻网站的访问。我正在(实时)检查 HTML 以查看它是否包含一些关键字。如果它包含其中一个关键字,我会将 HTML 写入文本文件以存储它。
我想这样做一个星期。因此,我正在收集大量数据。对该程序进行 3 分钟的测试,生成了一个 100MB 的文本文件。我有 4 TB 的空间,我不能使用更多。
另外,我不希望文本文件变得太大,因为我认为它们会变得无法打开。
我提议的是打开一个文本文件,然后将 HTML 写入其中,经常检查它的大小。如果它变得大于,比如说 200MB,我关闭文本文件并打开另一个。我还需要记录我总共使用了多少空间,这样我就可以确保我不会接近 4 TB。
我此时的问题是如何在文件关闭之前检查文本文件的大小(使用 FileWriter.close())。是否有此功能,或者我应该计算写入文件的字符数并使用它来估计文件大小?
一个单独的问题:有没有办法最小化我的文本文件占用的空间量?我在 Java 中工作。