0

我想使用 Python 使用 Hadoop 处理大量腌制数据。我想要做的是将我的数据表示为某个键(文件 ID),并将压缩的泡菜表示为大文件中的值。

如果我只是尝试将二进制代码作为 ascii 放入我想用 hadoop 处理的文件中,我会得到很多 '\t' 和 '\n' 值,它们会干扰 hadoop 文件的(键、值)结构。

我的问题是:如何使用 python 压缩一些数据并将其表示为 ascii 文件中的字符串,避免使用某些字符(例如 '\t' 和 '\n')?

或者也许我的方法本质上是无效的?

我真的很感激任何帮助!

4

2 回答 2

0

对于压缩,您可以使用zliborbz2模块。对于表示,您可以使用该base64模块。

于 2012-08-22T18:46:26.013 回答
0

您可以将腌制对象转换为base64使用base64模块。

于 2012-08-22T18:46:52.737 回答