1

我有一些 pyspark 代码,我将其打包为一个库,以便可以在其他项目中安装和使用它。该代码加载了一个镶木地板文件,该文件包含在我的库中。这在大多数环境中都可以正常工作,但不适用于数据块。

在 databricks 上安装 pip 后,我可以在 处看到文件file:/databricks/python/lib/python3.7/site-package/my_package/my_parquet_dir,但加载镶木地板文件调用不起作用。

如果我只是让它尝试从中加载,/databricks/python/lib/python3.7/site-package/my_package/my_parquet_dir则根本找不到目录。

如果我从中加载file:/databricks/python/lib/python3.7/site-package/my_package/my_parquet_dir,它会找到目录,但就像目录为空一样。几乎看起来镶木地板文件加载能够识别顶级目录(只要我将“文件:”添加到我的路径中),但是后续调用加载单个文件的加载程序失败,因为它没有添加“文件:"。

...我只是希望有人有访问数据的经验file:/databricks并知道某种技巧。

4

1 回答 1

1

事实证明,确实预先添加“文件:”是关键,而我遇到的问题是,有一次我把它拼错为“文件:”

于 2020-08-18T16:37:31.717 回答