我有一个巨大的论坛数据数据库。我需要从数据库中提取语料库用于 NLP 目的。提取步骤具有参数(例如 FTS 查询),我想将带有参数元数据的语料库保存在文件系统上。
一些语料库将有几十兆字节。用元数据保存文件的最佳方法是什么,这样我就可以在不加载整个文件的情况下读取元数据。
我正在使用以下可能相关的技术:PyQt、Postgres、Python、NLTK。
一些注意事项:
- 我希望语料库脱离重量级数据库。
- 我不想使用 sqlite,因为元数据的结构非常简单。
- 据我所知,酸洗不允许部分反序列化。
- 我不希望有单独的元数据文件。
- 我有协议缓冲区的经验,但又似乎过于沉重。
我想我可以将元数据腌制为字符串,并让文件的第一行代表元数据。这似乎是我认为最简单的方法。也就是说,如果泡菜格式是 ASCII 安全的。