我是 Spark-DataFrame API 的初学者。
我使用此代码将 csv 选项卡分隔加载到 Spark Dataframe
lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *some name list*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)
假设我使用 Spark 从新文件创建 DataFrame,并使用内置方法 toPandas() 将其转换为 pandas,
- 它是否将 Pandas 对象存储到本地内存?
- Pandas 低级计算是否全部由 Spark 处理?
- 它是否公开了所有 pandas 数据框功能?(我想是的)
- 我可以将它转换为 Pandas 并完成它,而无需太多接触 DataFrame API 吗?