有人可以让我知道触发 Databricks 笔记本的可能方法吗?我首选的方法是通过 Azure 数据工厂,但遗憾的是,我的公司目前不愿意部署 ADF。
基本上,我希望在将 Blob 上传到 Blob 存储时触发我的 Databricks 笔记本。那可能吗?
有人可以让我知道触发 Databricks 笔记本的可能方法吗?我首选的方法是通过 Azure 数据工厂,但遗憾的是,我的公司目前不愿意部署 ADF。
基本上,我希望在将 Blob 上传到 Blob 存储时触发我的 Databricks 笔记本。那可能吗?
您可以试试 Auto Loader: Auto Loader 支持两种检测新文件的模式:目录列表和文件通知。
目录列表: Auto Loader 通过列出输入目录来识别新文件。目录列表模式允许您快速启动 Auto Loader 流,无需任何权限配置,而无需访问云存储上的数据。在 Databricks Runtime 9.1 及更高版本中,Auto Loader 可以自动检测文件是否按词法顺序到达您的云存储,并显着减少检测新文件所需的 API 调用量。
文件通知: Auto Loader 可以自动设置从输入目录订阅文件事件的通知服务和队列服务。文件通知模式对于大型输入目录或大量文件具有更高的性能和可扩展性,但需要额外的云权限才能进行设置。
参考 - https://docs.microsoft.com/en-us/azure/databricks/spark/latest/structured-streaming/auto-loader