我正在使用 S3 存储桶,其中数据按 ID 和年/月组织到文件中——这意味着每个 ID 和月一个文件。在每个 (csv.gz) 文件中,每条记录都有一个时间戳,格式为:(YYYY-MM-dd HH:mm:ss
注意缺少T
)。
现在,在查询数据时,我希望将日期时间粒度支持到秒,因此自然希望在使用 Python 管理数据之前就已经在 S3 中过滤数据。
但是我找不到任何方法来做到这一点。该函数TO_TIMESTAMP
不支持用户提供的格式(需要T
日期/时间分隔符)并且组合 SUBSTRING 和 CAST ( CAST(SUBSTRING(my_timestamp_column, 1, 10) AS TIMESTAMP)
) 会产生The query cannot be evaluated
错误。
有没有办法解决?文档指出该函数TO_TIMESTAMP
是“TO_STRING 的逆运算”,这并不完全正确,因为后者支持time_format_pattern
.