c - 快速读取文件（stream_lf 格式）

Question

寻找一种方法来加快读取和处理大型文本文件（基本上是 csv；stream_lf）。

我应该绕过 RMS 吗？解决方案可能是异步的或同步的。

当前的实现是同步的，但是太慢了。

在 HP Pascal 中实现，并使用 pascal 运行时库 (OPEN/READLN/EOF/CLOSE)。绕过 pascal 运行时库是可以接受的。

示例可能是 C 或 Pascal。

score 3 · Accepted Answer

对于顺序文件：查看 WASD 或 VWCMS 代码（查看http://www.vsm.co.au/wasd）。我知道这些绕过 RMS 也有利于 Web 服务的速度，但我不知道在 whar 来源中已经完成。对于相对文件，请考虑顺序。记录可能不存在（空？）对于索引文件：不要。改用RMS，因为内部结构（索引与这些文件中的数据交织在一起。在新的/重新组织的文件中，没关系，但缺乏维护会导致在RMS之外访问时出现问题）

score 1 · Accepted Answer

对于系统块设置为 32。我尝试了 SET RMS/BLOCK=32/BUF=8。这已经有所改善。

[编辑：如果没有进程设置，那么我们使用的系统设置。所以测试完成了添加缓冲区，但没有使它们变大]

32 只是 16KB。非常适合 1992 年，但对于 2012 年来说很糟糕。如果更多的缓冲区已经有所帮助，那么更大的缓冲区可能会提供更多帮助。越大越好。8KB 的倍数可能只是额外的帮助。因此尝试 128，并在 SET RMS 进程级别尝试 255。如果它带来快乐，那么您可能希望调整该过程以选择其自己的 RMS 设置，而不是依赖 DCL 设置。

RMS $GET 调用通常只会获得一条记录，但您可以使用 SET FIL/ATTR=(RFM=UDF) 或 (RFM=FIX,LRL=8192) 对文件“撒谎”。您可以使用 SYS$MODIFY 在程序中临时执行此操作。之后，您可以大块读取，但您的程序将需要解码欺骗记录中的真实记录。这很像使用 SYS$READ / SYS$QIOW (BlockIO)，但坚持记录模式将为您提供免费的“预读”。是的，您可以使用 aysnc IO 自己编写代码，但这很麻烦。

顺便说一句...不要对缓冲区的数量发疯。在基准测试中（很多年前），我看到超过 10 个左右的好处很少或有负面影响。原因是 RMS 确实“预读”而不是“保持领先”。它异步填充所有缓冲区，但随后在处理缓冲区时不会发布额外的读取。只有当所有数据都被消耗时，才会为所有缓冲区重新发出 IO，而不是在处理缓冲区时尝试保持领先。那些 IO 的“波”会混淆存储子系统，波中的第一个 IO 可能会被波的其余部分减慢......所以程序等待。

有多少数据在起作用？数十兆字节或千兆字节> XFC 缓存是否会在导出和处理之间缓存它？

遇到了 vriendelijke groetjes。海因。

score 1 · Accepted Answer

嗯，这里没有太多具体内容。

您是否知道 RMS 会减慢您的速度？

将您的处理时间（IO、CPU、Elapsed）与 SEARCH/STAT/WIN=0 进行比较一个指示可能是低 USER 模式、高 EXEC 更多、高 IDLE。将 MONI MODE 或 GETJPI 与 EXECTIM、USERTIM 一起使用

通过 PASRTL 或直接读取的最佳 RMS 可能意味着具有预读、不共享或只读共享的几个大缓冲区。

重试： $ SET /RMS/BLO=127/BUF=8 ！美元！对于最近的 OpenVMS 版本（8.4 或 8.3+补丁），Block=255 或 128

如果有很多小记录，并且 EXEC 模式很高，则可能有太多时间进出 RMS 来提取记录。在这种情况下，请尝试 C 或 COBOL 来读取非共享文件。两者的 RTL（运行时库）都将使用 BLOCKIO，而不是记录 IO 以避免 RMS 开销。他们仍然遵守上面提到的 RMS 缓冲区设置。尝试？

祝你好运......让我们知道你是怎么做到的？也许有一些之前/之后的数字。

干杯，海因

score 1 · Accepted Answer

使用 C。绕过 RMS。

f打开文件。

f寻求结束。

ftell获取文件大小

malloc一块这样大小的内存

一口气读完。

有人可能会怀疑，如果您的文件比您的工作集大很多，那么分页可能会占用您的挂钟。

c - 快速读取文件（stream_lf 格式）

4 回答 4

Related

Reference