python - 我有大量相同性质的小文件。我可以在它们上构建字典，但单独压缩每个文件吗？

Question

语料库由字符串（文件名）及其校验和组成，所以我希望它的熵高于普通文本。此外，该集合太大而无法分析，因此我将对其进行采样以创建全局字典。我的任务有没有花哨的机器学习方法？

我应该使用哪种算法或者更好的库？

我正在使用 python 以防万一。

score 0 · Accepted Answer

我建议你使用稀疏编码。它允许您使用您的数据集来推断一个过度完整的字典，然后使用该字典对您的数据进行编码。如果您的数据确实具有相似的性质，那么这可能对您很有效。

1 回答 1