python-2.7 - PySpark读取GBK HDFS 包含汉字

问问题 2017-06-09T05:07:50.170

481 次

0

我有很多用 GBK 编码的大 HDFS 文件，但是这些文件包含特殊字符，包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题？

PySpark 仅支持 UTF-8 阅读器。

星火版本：2.0.0。
Hadoop版本：2.7
蟒蛇 2.7

添加如下：

结果将被保存到文件中，然后结果文件将在另一个系统中使用，例如 SDK。我打印了一个字，就像u'\ufffd\u0439\ufffd'，显然是无效的。

0 回答 0