nim-lang - Nim：使用只读内存映射文件

Question

我刚刚开始使用 Nim，因此这可能是一个简单的问题。我们需要对存储在文件中的数据进行多次查找。其中一些文件太大而无法加载到内存中，因此采用 mmapped 方法。我可以通过 memfiles 对文件进行映射，并且我手边有一个指针或 MemSlice。文件和内存区域是只读的，因此具有固定大小。我希望我能够以不可变的固定大小字节和字符数组的形式访问数据，而无需复制它们，利用所有可用于 seq、数组、字符串等的现有功能。所有 MemSlice / string 方法都复制数据，这是公平的，但不是我想要的（在我的用例中不需要）。

我了解数组、字符串等类型有一个指向数据的指针和一个 len 字段。但是找不到用指针和 len 创建它们的方法。我认为这与所有权和对内存的引用有关，这可能比我的切片寿命更长。

   let mm = memfiles.open(...)
   let myImmutableFixesSizeArr = ?? # cast[ptr array[fsize, char]](mm.mem) doesn't compile as fsize needs to be const. Neither could I find something like let x: [char] = array_from(mm.mem, fsize)
   let myImmutableFixedSizeString = mm[20, 30].to_fixed_size_immutable_string  # Create something that is string like so that I can use all the existing string methods.

更新：我确实找到了https://forum.nim-lang.org/t/4680#29226，它解释了如何使用 OpenArray，但 OpenArray 只允许作为函数参数，而你 - 如果我没记错的话 - 它是不像普通数组。

谢谢你的帮助

score 2 · Accepted Answer

在不复制的情况下，无法将内存 ( ptr UncheckedArray[char]) 中的原始 char 数组转换为 a string，只能转换为openArray[char](or cstring)

因此，不可能使用期望 a的 proc string，只有那些接受openArray[T]或openArray[char]
高兴 an 的openArray[T]行为seq[T]在发送到 proc 时与 a 完全一样。

（{.experimental:"views".}确实允许您将 openArray[T] 分配给局部变量，但它还没有准备好投入生产）

您可以使用memSlices迭代器循环遍历 memFile 中的分隔块而无需复制：

import memfiles

template toOpenArray(ms: MemSlice, T: typedesc = byte): openArray[T] =
  ##template because openArray isn't a valid return type yet
  toOpenArray(cast[ptr UncheckedArray[T]](ms.data),0,(ms.size div sizeof(T))-1)

func process(slice:openArray[char]) =
  ## your code here but e.g.
  ## count number of A's  
  var nA: int
  for ch in slice.items:
    if ch == 'A': inc nA
  debugEcho nA


let mm = memfiles.open("file.txt")
for slice in mm.memSlices:
  process slice.toOpenArray(char)

或者，要使用文件中间表示的某个 char 数组，您可以使用指针算法。

import memfiles

template extractImpl(typ,pntr,offset) =
  cast[typ](cast[ByteAddress](pntr)+offset)

template checkFileLen(memfile,len,offset) =
  if offset + len > memfile.size:
    raise newException(IndexDefect,"file too short")

func extract*(mm: MemFile,T:typedesc, offset:Natural): ptr T =
  checkFileLen(mm,T,offset)
  result = extractImpl(ptr T,mm.mem,offset)
func extract*[U](mm: MemFile,T: typedesc[ptr U], offset: Natural): T = 
  extractImpl(T,mm.mem,offset)

let mm = memfiles.open("file.txt")

#to extract a compile-time known length string:
let mystring_offset = 3
const mystring_len = 10

type MyStringT = array[mystring_len,char]

let myString:ptr MyStringT = mm.extract(MyStringT,mystring_offset)
process myString[]

#to extract a dynamic length string:
let size_offset = 14
let string_offset = 18

let sz:ptr int32 = mm.extract(int32,size_offset)
let str:ptr UncheckedArray[char] = mm.extract(ptr UncheckedArray[char], string_offset)

checkFileLen(mm,sz[],string_offset)
process str.toOpenArray(0,sz[]-1)

nim-lang - Nim：使用只读内存映射文件

1 回答 1

Related

Reference