我想使用 Python 使用 Hadoop 处理大量腌制数据。我想要做的是将我的数据表示为某个键(文件 ID),并将压缩的泡菜表示为大文件中的值。
如果我只是尝试将二进制代码作为 ascii 放入我想用 hadoop 处理的文件中,我会得到很多 '\t' 和 '\n' 值,它们会干扰 hadoop 文件的(键、值)结构。
我的问题是:如何使用 python 压缩一些数据并将其表示为 ascii 文件中的字符串,避免使用某些字符(例如 '\t' 和 '\n')?
或者也许我的方法本质上是无效的?
我真的很感激任何帮助!