我正在尝试在 Databricks - 运行时 7.2 上使用 turbodbc 和 Pyarrow 支持。Turbodbc 在没有 pyarrow 支持的情况下可以在同一个实例上很好地工作。从Databricks 7.2 发布页面上,它说 Pyarrow 已经是我已经验证为真实的。它带有 0.15.1。
但是,当我尝试使用 pyarrow 运行 turbodbc 时,我抛出了以下错误。
此 turbodbc 安装不支持 Apache Arrow 扩展。请安装
pyarrow
软件包。如果您从源代码构建了 turbodbc,您可能还需要重新安装 turbodbc 以编译扩展。
数据块基于 Ubuntu 18.04。我已确保安装了 init 脚本
libboost-all-dev
unixodbc-dev
python-dev
我还尝试在库列表中再次指定 pyarrow,以便通过 pip 安装它,但没有运气。
任何帮助是极大的赞赏。
更新1:
尝试创建一个使用 conda 进行 python 包安装的 ML 集群。我仍然遇到同样的错误。