在我当前的应用程序中,我需要按照 AI 社区中众所周知的基于实例的学习范式创建一个基于案例的存储库。
基于案例的存储库需要在对应用程序的两次调用之间持久存储。
但是我担心由此隐含的序列化/反序列化(可能是 JSON 或键值对的轻量级格式)会产生如此多的 I/O 开销,以至于编写一个好的索引机制(它在 in-案例库的内存描述)只会加速一小部分,因此没有实质性的好处。
现在我认为有两种解决方案
a) 尝试直接对文件进行索引,同时执行 I/O 和索引。
b)以某种方式将案例库的内存中表示的内存图像保存到文件中,以便“文件解析”然后简化为简单的 memcpy(包括内存映射文件)。请注意,文件格式是二进制的,而不是基于 a) 中的 UTF-8。
有没有人遇到过类似的问题并尝试过 b) 的方法?