我有一些 pyspark 代码,我将其打包为一个库,以便可以在其他项目中安装和使用它。该代码加载了一个镶木地板文件,该文件包含在我的库中。这在大多数环境中都可以正常工作,但不适用于数据块。
在 databricks 上安装 pip 后,我可以在 处看到文件file:/databricks/python/lib/python3.7/site-package/my_package/my_parquet_dir,但加载镶木地板文件调用不起作用。
如果我只是让它尝试从中加载,/databricks/python/lib/python3.7/site-package/my_package/my_parquet_dir则根本找不到目录。
如果我从中加载file:/databricks/python/lib/python3.7/site-package/my_package/my_parquet_dir,它会找到目录,但就像目录为空一样。几乎看起来镶木地板文件加载能够识别顶级目录(只要我将“文件:”添加到我的路径中),但是后续调用加载单个文件的加载程序失败,因为它没有添加“文件:"。
...我只是希望有人有访问数据的经验file:/databricks并知道某种技巧。