python-3.x - aws 胶水主要丢弃空字段

Question

我有一个数据框 df。它有几列大多为空。我正在使用下面的代码将其写入 s3 存储桶。然后我爬取 s3 存储桶以获取数据目录中的表模式。我发现当我抓取数据时，大部分为空的字段都会被删除。我检查了输出的 json，发现有些记录有该字段，而另一些则没有。有谁知道问题可能是什么？我想包括这些字段，即使它们大多为空。

代码：

# importing libraries

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

glueContext = GlueContext(SparkContext.getOrCreate())

from pyspark.sql.functions import col
from pyspark.sql.functions import first
from pyspark.sql.functions  import date_format
from pyspark.sql.functions import lit,StringType
from pyspark.sql.types import *
from pyspark.sql.functions import to_date,format_number,dayofmonth,hour,dayofyear,month,year,weekofyear,date_format,unix_timestamp
from pyspark.sql.functions import *


# write to table
df.write.json('s3://path/table')

score 1 · Accepted Answer

为什么不使用 AWS Glue 写入方法而不是 spark DF？

胶水上下文.write_dynamic_frame.from_options

python-3.x - aws 胶水主要丢弃空字段

1 回答 1

Related

Reference