关于如何解决以下问题的想法用完了。Glue 数据目录中的表具有以下架构:
root
|-- _id: string
|-- _field: struct
| |-- ref: choice
| | |-- array
| | | |-- element: struct
| | | | |-- value: null
| | | | |-- key: string
| | | | |-- name: string
| | |-- struct
| | | |-- value: null
| | | |-- key: choice
| | | | |-- int
| | | | |-- string
| | | |-- name: string
如果我尝试ref
使用
resolved = (
df.
resolveChoice(
specs = [('_field.ref','cast:array')]
)
)
我丢失了记录。
关于我如何做的任何想法:
- 过滤 DataFrame 是否
_field.ref
是array
或struct
- 将
struct
记录转换为array
或反之亦然