0

我有很多用 GBK 编码的大 HDFS 文件,但是这些文件包含特殊字符,包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题?

PySpark 仅支持 UTF-8 阅读器。

  • 星火版本:2.0.0。
  • Hadoop版本:2.7
  • 蟒蛇 2.7

添加如下:

结果将被保存到文件中,然后结果文件将在另一个系统中使用,例如 SDK。我打印了一个字,就像u'\ufffd\u0439\ufffd',显然是无效的。

4

0 回答 0