我想将网页存储在压缩文本文件 (CSV) 中。为了实现最佳压缩,我想提供一组 1000 个网页。然后,图书馆应该花一些时间为此内容创建最佳“字典”。一个明显的“字典”条目可能是<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
,它可以存储为 %1 或类似的东西,因为它几乎出现在所有网页上。通过创建这样的自定义字典,在我的情况下压缩率应该是 99%。
我的问题是,在具有 MIT 或类似自由许可的 Windows 上是否存在用于执行此操作的库?如果没有,您是否会推荐任何通用压缩库。我已经尝试过使用 zlib,但它输出二进制数据。如果我将此二进制数据转换为文本,我担心结果可能比原始文本长。
编辑:我需要能够将文本存储在 CSV 文件中,并且仍然能够将它们导入数据库甚至 Excel。