我有很多用 GBK 编码的大 HDFS 文件,但是这些文件包含特殊字符,包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题?
PySpark 仅支持 UTF-8 阅读器。
- 星火版本:2.0.0。
- Hadoop版本:2.7
- 蟒蛇 2.7
添加如下:
结果将被保存到文件中,然后结果文件将在另一个系统中使用,例如 SDK。我打印了一个字,就像u'\ufffd\u0439\ufffd',显然是无效的。
我有很多用 GBK 编码的大 HDFS 文件,但是这些文件包含特殊字符,包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题?
PySpark 仅支持 UTF-8 阅读器。
添加如下:
结果将被保存到文件中,然后结果文件将在另一个系统中使用,例如 SDK。我打印了一个字,就像u'\ufffd\u0439\ufffd',显然是无效的。