语料库由字符串(文件名)及其校验和组成,所以我希望它的熵高于普通文本。此外,该集合太大而无法分析,因此我将对其进行采样以创建全局字典。我的任务有没有花哨的机器学习方法?
我应该使用哪种算法或者更好的库?
我正在使用 python 以防万一。
语料库由字符串(文件名)及其校验和组成,所以我希望它的熵高于普通文本。此外,该集合太大而无法分析,因此我将对其进行采样以创建全局字典。我的任务有没有花哨的机器学习方法?
我应该使用哪种算法或者更好的库?
我正在使用 python 以防万一。
我建议你使用稀疏编码。它允许您使用您的数据集来推断一个过度完整的字典,然后使用该字典对您的数据进行编码。如果您的数据确实具有相似的性质,那么这可能对您很有效。