1

为什么使用打印输出到文件时文件的大小上限为 4 GB?我希望通过流输出应该可以生成任意大小的文件。

更新ijwChas。欧文斯是对的。我以为 F: 盘是 NTFS 格式的,但实际上它使用的是 FAT32 文件系统。我在另一个驱动器上尝试过,我可以生成一个 20 GB 的文本文件。在这种情况下没有限制。向所有人道歉。


详细信息:在研究回答 Stack Overflow 上的问题时,我需要测量使用 Perl 读取非常大的文本文件的性能。为了测试读数,我需要一个大的文本文件,我编写了一个小的 Perl 脚本来生成文本文件,但遇到了一个意想不到的问题。输出文件会不断增长,直到达到 4 GB。根据 Windows Explorer,脚本一次运行的大小为 4294967269 字节(磁盘上为 4294967296 字节)。脚本继续,但文件不再增长。

重要的是它只是一些:

print NUMBERS_OUTFILE $line;

其中 $line 是一个以“\n”结尾的长字符串。线的长度是可以配置的,对于这个问题并不关键;例如 250 个字符或 34000 个字符。NUMBERS_OUTFILE 是使用以下命令创建的文件句柄:

open ( NUMBERS_OUTFILE,">F:\temp2\out1.txt")

驱动器 F:采用 NTFS 格式,位于与操作系统磁盘不同的物理硬盘上。

是什么原因,是否有解决方法?


完整的Perl 脚本BAT 驱动程序脚本(使用 pre 标签格式化的 HTML)。如果设置了两个环境变量 MBSIZE 和 OUTFILE,那么 Perl 脚本应该能够在 Windows 以外的其他平台上不加改变地运行。

平台:来自 ActiveState 的 Perl 5.10.0;32位;build 1004。Windows XP x64 SP2、8 GB RAM、500 GB Green Caviar 硬盘。

perl -V说:

Summary of my perl5 (revision 5 version 10 subversion 0) configuration:
  Platform:
    osname=MSWin32, osvers=5.00, archname=MSWin32-x86-multi-thread
    uname=''
    config_args='undef'
    hint=recommended, useposix=true, d_sigaction=undef
    useithreads=define, usemultiplicity=define
    useperlio=define, d_sfio=undef, uselargefiles=define, usesocks=undef
    use64bitint=undef, use64bitall=undef, uselongdouble=undef
    usemymalloc=n, bincompat5005=undef
  Compiler:
    cc='cl', ccflags ='-nologo -GF -W3 -MD -Zi -DNDEBUG -O1 -DWIN32 -D_CONSOLE -DNO_ST
RICT -DHAVE_DES_FCRYPT -DUSE_SITECUSTOMIZE -DPRIVLIB_LAST_IN_INC -DPERL_IMPLICIT_CONTE
XT -DPERL_IMPLICIT_SYS -DUSE_PERLIO -DPERL_MSVCRT_READFIX',
    optimize='-MD -Zi -DNDEBUG -O1',
    cppflags='-DWIN32'
    ccversion='12.00.8804', gccversion='', gccosandvers=''
    intsize=4, longsize=4, ptrsize=4, doublesize=8, byteorder=1234
    d_longlong=undef, longlongsize=8, d_longdbl=define, longdblsize=10
    ivtype='long', ivsize=4, nvtype='double', nvsize=8, Off_t='__int64', lseeksize=8
    alignbytes=8, prototype=define
  Linker and Libraries:
    ld='link', ldflags ='-nologo -nodefaultlib -debug -opt:ref,icf  -libpath:"D:\Perl\
lib\CORE"  -machine:x86'
    libpth=\lib
    libs=  oldnames.lib kernel32.lib user32.lib gdi32.lib winspool.lib  comdlg32.lib a
dvapi32.lib shell32.lib ole32.lib oleaut32.lib  netapi32.lib uuid.lib ws2_32.lib mpr.l
ib winmm.lib  version.lib odbc32.lib odbccp32.lib msvcrt.lib
    perllibs=  oldnames.lib kernel32.lib user32.lib gdi32.lib winspool.lib  comdlg32.l
ib advapi32.lib shell32.lib ole32.lib oleaut32.lib  netapi32.lib uuid.lib ws2_32.lib m
pr.lib winmm.lib  version.lib odbc32.lib odbccp32.lib msvcrt.lib
    libc=msvcrt.lib, so=dll, useshrplib=true, libperl=perl510.lib
    gnulibc_version=''
  Dynamic Linking:
    dlsrc=dl_win32.xs, dlext=dll, d_dlsymun=undef, ccdlflags=' '
    cccdlflags=' ', lddlflags='-dll -nologo -nodefaultlib -debug -opt:ref,icf  -libpat
h:"D:\Perl\lib\CORE"  -machine:x86'


Characteristics of this binary (from libperl):
  Compile-time options: MULTIPLICITY PERL_DONT_CREATE_GVSV
                        PERL_IMPLICIT_CONTEXT PERL_IMPLICIT_SYS
                        PERL_MALLOC_WRAP PL_OP_SLAB_ALLOC USE_ITHREADS
                        USE_LARGE_FILES USE_PERLIO USE_SITECUSTOMIZE
  Locally applied patches:
        ActivePerl Build 1004 [287188]
        33741 avoids segfaults invoking S_raise_signal() (on Linux)
        33763 Win32 process ids can have more than 16 bits
        32809 Load 'loadable object' with non-default file extension
        32728 64-bit fix for Time::Local
  Built under MSWin32
  Compiled at Sep  3 2008 13:16:37
  @INC:
    D:/Perl/site/lib
    D:/Perl/lib
.
4

4 回答 4

7

嗯,这很奇怪。至少在 OS X 和 Linux 上,限制是由文件系统强加的。也许 Win32 上的 Activestate Perl 没有使用大文件支持编译?你能发布运行的结果perl -V吗?

我们关心的输出部分是

Platform:
osname=MSWin32, osvers=5.00, archname=MSWin32-x86-multi-thread
uname=''
config_args='undef'
hint=recommended, useposix=true, d_sigaction=undef
useithreads=define, usemultiplicity=define
useperlio=define, d_sfio=undef, uselargefiles=define, usesocks=undef
use64bitint=undef, use64bitall=undef, uselongdouble=undef
usemymalloc=n, bincompat5005=undef

具体来说,uselargefiles=define。这个特性被定义(即打开)的事实意味着 Perl 将使用一个无符号的 64 位整数作为文件偏移量。从理论上讲,这可以使文件最大为 16 艾字节(17,179,869,184 GB);但是,文件系统限制通常会在您达到该限制之前发挥作用。

于 2009-09-03T13:51:30.093 回答
5

我认为问题在于,由于文件位置指针的 4 个字节的限制,您不能写入超过 4 GB 的文件位置。即使您使用的是流式输出,因为 Perl 仍然必须跟踪文件位置。

我会尝试改用Win32API::File - 它允许通过在不同字段中发送文件位置指针的高位 4 字节来寻找大于 4 GB 的位置,并且应该可以很好writeFile()地用于写入输出文件。

于 2009-09-03T13:34:01.210 回答
5

这是我发现的一件事(链接):

配置时选项

INSTALL 文档描述了几个配置时选项。其中一些将与 Cygwin 一起使用,而另一些则尚不可能。此外,其中一些是实验性的。您可以在 Configure 提示时选择一个选项,也可以在命令行上定义(取消定义)符号。

...

  • -Duselargefiles

    尽管 Win32 支持大文件,但 Cygwin 目前使用 32 位整数进行内部大小和位置计算。

于 2009-09-03T13:36:50.233 回答
2

我猜“32 位”部分是问题所在......您可以在 32 位数字中表示的最大数字约为 4 GB(http://en.wikipedia.org/wiki/Integer_%28computer_science%29

- 编辑 -

我实际上指的不是文件系统限制,而是 Perl 限制。因为它是在 32 位上编译的,并且只能访问 4 GB 的 raRAM。据我所知,NTFS 确实有大约 8 GB 的限制,并使用某种窗口方法来读取这些文件。但那是另一回事了。

于 2009-09-03T13:25:34.817 回答