我可以运行此脚本以文本格式保存文件,但是当我尝试运行 saveAsSequenceFile 时出错。如果有人知道如何将 RDD 保存为序列文件,请告诉我该过程。我尝试在“Learning Spark”以及 Spark 官方文档中寻找解决方案。
这运行成功
dataRDD = sc.textFile("/user/cloudera/sqoop_import/departments")
dataRDD.saveAsTextFile("/user/cloudera/pyspark/departments")
这失败了
dataRDD = sc.textFile("/user/cloudera/sqoop_import/departments")
dataRDD.saveAsSequenceFile("/user/cloudera/pyspark/departmentsSeq")
错误:调用 z:org.apache.spark.api.python.PythonRDD.saveAsSequenceFile 时出错。: org.apache.spark.SparkException: 无法使用 java.lang.String 类型的 RDD 元素
这是数据:
2,Fitness
3,Footwear
4,Apparel
5,Golf
6,Outdoors
7,Fan Shop
8,TESTING
8000,TESTING