对于我的一门课,我必须分析“大数据”数据集。我在 AWS Registry of Open Data 上发现了以下看起来很有趣的数据集:
https://registry.opendata.aws/openaq/
如何准确地创建连接并将此数据集加载到 Databricks 中?我尝试了以下方法:
df = spark.read.format("text").load("s3://openaq-fetches/")
但是,我收到以下错误:
java.lang.AssertionError: assertion failed: Conflicting directory structures detected. Suspicious paths:
此外,这个数据集似乎有多个文件夹。如何访问 Databricks 中的特定文件夹,如果可能,我可以专注于特定时间范围吗?比方说,从 2016 年到 2020 年?
最终,我想执行各种 SQL 查询以分析数据集并可能创建一些可视化。先感谢您。