1

使用 Azure Databricks。我有 petastorm==0.11.2 和 databricks-connect==9.1.0

我的数据块连接会话似乎正在工作我能够将数据读入我的远程工作区。但是当我使用 petastorm 创建一个 spark 转换器对象时,它说无法推断模式,即使我传递它的对象并检查它的 .schema 属性,它也会向我显示一个模式就好了。

完全相同的代码在笔记本的 databricks 工作区中工作。但是当我在使用 DBConnect 读取数据的单独 VM 上时不起作用。

我认为问题在于设置此配置:SparkDatasetConverter.PARENT_CACHE_DIR_URL_CONF。在本地数据块工作区中使用值“file:///tmp/petastorm/cache/”可以正常工作。当使用 databricks-connect 时,它应该构建一个链接到集群的 spark 上下文,否则读取和写入路径的行为很好。

有任何想法吗?

4

0 回答 0