1

我正在尝试通过 MPI-I/O 读取 CFD 网格文件。该文件是大端格式的 Fortran 无格式格式,它包含整数和实数 *8 的混合变量(文件以块大小的整数开头,后跟该块的 x、y、z 坐标)。我可以设法读取第一个整数,但真正的实体完全错误或不那么准确。所以我简化了代码以重现相同的错误。它以 Fortran 无格式格式将一个实数值写入文件,并尝试从串行和并行(通过 MPI-I/O)中读取它:

program readtest
implicit none
include 'mpif.h'

   integer :: myrank,nproc,ierr,istatus(MPI_STATUS_SIZE)
   integer :: mpifile
   integer :: rdsize
   integer(kind=MPI_OFFSET_KIND) :: disp
   character(len=80) :: mpifiname
   double precision :: in,vals,valp

! Define MPI basics
   call MPI_INIT(ierr)
   call MPI_COMM_RANK(MPI_COMM_WORLD,myrank,ierr)
   call MPI_COMM_SIZE(MPI_COMM_WORLD, nproc,ierr)

! Initialize
   in = 1.0/7.0
   vals = 0.0
   valp = 0.0

! Write a serial files
   open(10,file='Serial.dat',form='unformatted')
   write(10) in
   close(10)

! Serial file read
   open(10,file='Serial.dat',form='unformatted',status='old')
   read(10) vals
   close(10)

! Read by MPI-I/O
   mpifiname = 'Serial.dat'

   disp = 0
   call MPI_FILE_OPEN(MPI_COMM_WORLD, mpifiname, &
                      MPI_MODE_RDONLY, &
                      MPI_INFO_NULL, mpifile, ierr)
   call MPI_FILE_SET_VIEW(mpifile,disp,MPI_BYTE,MPI_BYTE,"external32",&
                          MPI_INFO_NULL,ierr)
   rdsize = 0
   if(myrank == 0) rdsize = 1
   call MPI_FILE_READ_ORDERED(mpifile, valp, rdsize, MPI_DOUBLE_PRECISION, &
                               istatus, ierr)
   call MPI_FILE_CLOSE(mpifile, ierr)

   write(*,*) 'Input: ',in,'Serial:',vals,' Parallel:',valp

   call MPI_FINALIZE(ierr)

stop
end

如果您使用 big-endian 选项进行编译(我为 Intel 编译器添加了 '-convert big_endian' 选项),Intel MPI 的结果略有不同(这似乎是与字节相关的问题):

mpirun -np 1 ./a.out

 Input:   0.142857149243355      Serial:  0.142857149243355       Parallel:
  0.142857074737549 (from Intel MPI)
 Input:   0.142857149243355      Serial:  0.142857149243355       Parallel:
  3.398201204542405E-312 (from OpenMPI)

如果我放弃大端模式(即,将 MPI_FILE_OPEN 的数据表示替换为“native”+设置 disp=4 以跳过 Fortran 无格式格式的第一个 4 字节记录标记 + 没有额外的编译标志),MPI-I/O 读取完全相同的值。但是,由于网格文件是以大端格式给出的,我必须继续使用“-convert big_endian”选项。

HDF-5 的使用似乎也并不容易,因为文件格式已被其他预处理和后处理代码共享。

有没有人有经验或者知道治疗方法?

最好的,杰夫

4

1 回答 1

4

虽然 MPI 中通信操作的默认错误处理程序是MPI_ERRORS_ARE_FATAL,因此如果发生任何类型的通信错误,程序会中止,但文件 I/O 操作的默认错误处理程序是MPI_ERRORS_RETURN,这意味着程序继续执行并且错误代码是被退回。如果您ierr在调用 后检查 的值MPI_FILE_SET_VIEW,您会注意到使用 Open MPI 它会返回MPI_ERR_UNSUPPORTED_DATAREP。原因是 Open MPI 附带了一个没有实现external32数据表示的 ROM-IO 版本。

至于使用 Intel MPI 时浮点数的值略有错误:0.142857149243355在 64 位 IEEE 754 中是0x3FC24924A0000000. external32根据英特尔 MPI(可以使用 验证),这个数字的表示MPI_PACK_EXTERNAL是:

A0 00 00 00 3F C2 49 24

这根本不是大端存储中的 IEEE 754 数字。相反,它是大端和小端的奇怪混合 - 值被分成两半,每一个都存储在大端中,但下半部分首先出现在小端中。这是英特尔实现中的错误external32还是表示的实际怪癖我无法判断,因为后者在 MPI 标准中几乎没有描述。

在大端机器上编写时,未格式化的文件可能如下所示:

00 00 00 08 3F C2 49 24 A0 00 00 00 00 00 00 08
----------- ^^^^^^^^^^^^^^^^^^^^^^^ -----------
  reclen         record value          reclen

读取的前 8 个字节MPI_FILE_READ_ORDERED00 00 00 08 3F C2 49 24. 在英特尔 MPI 将这些字节从 1 转换回来之后,获得external3264位 IEEE 754 表示形式。0x3FC24924000000080.142857074737549

于 2013-09-05T16:10:37.297 回答