问题标签 [polybase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server-2016 - SQL Server 2016 中的 Polybase
只是想知道 SQL Server 2016 中的 Polybase 功能是否允许搜索非关系数据库。我们将 TRIM 用于我们的文档管理系统。升级到 SQL Server 2016 是否允许我们随后搜索 TRIM 文档?
谢谢
azure - 由于内部错误,EXTERNAL TABLE 访问失败:“调用 HdfsBridge_IsDirExist 时引发 Java 异常。Java 异常消息:
我正在尝试通过 polybase 在 Visual Studio 2015 上使用以下语法创建外部表。它给了我以下错误。有人可以帮忙吗
由于内部错误,EXTERNAL TABLE 访问失败:
'调用 HdfsBridge_IsDirExist 时引发 Java 异常。Java 异常消息:com.microsoft.azure.storage.StorageException:服务器未能对请求进行身份验证。确保 Authorization 标头的值格式正确,包括签名。:错误 [com.microsoft.azure.storage.StorageException:服务器无法对请求进行身份验证。确保 Authorization 标头的值正确形成,包括签名。] 访问外部文件时发生。
azure-sqldw - 如果存在,如何删除 Poly Base 外部表?
我已通过 poly-base 将 Azure blob 存储中的文件数据加载到 Azure SQL DW 外部表。现在 Blob 容器中的文件已更新。现在我想加载新数据。任何人都可以建议如何通过 poly base 将新数据加载到外部表中。?我正在尝试一种方法来删除外部表(如果存在)并再次创建它以加载新数据。
azure-sql-database - SQL 数据仓库中的 PolyBase:如何在数据库范围凭据创建中提供 azure_storage_account_key 作为 KEYURI
我正在通过 polybase 将数据从 Azure Blob 存储容器加载到 SQL DW 表。在创建数据库范围凭据中,我必须明确指定我觉得不安全的 azure 存储密钥。如何用如下所示的 Key-URI 替换它。我们可以通过密钥库实现来实现这一点。我正在尝试通过将 keyURI 作为输入参数传递给数据库范围凭据创建来使用多基脚本实现存储过程。
azure - 为什么 Polybase 对于跨越 10 亿条记录的大型压缩文件速度很慢?
在查询更大的数据集以便将记录从 Blob 存储插入 Azure 数据仓库时,什么会导致 Polybase 性能下降?
例如,几千个压缩 (.gz) CSV 文件,其标头在 6 个月的数据中每天按几个小时进行分区。从 SSMS 中的外部表中查询这些文件并不是最佳选择,而且速度极慢。
客观地说,我将数据加载到 Polybase 以便将数据传输到 Azure 数据仓库。除了大型数据集,Polybase 似乎很慢。
有哪些选项可用于优化 Polybase?在每次上传到 Blob 存储后等待查询或加载数据?
sql - SQL 2016 PolyBase 计算下推到使用 WASBS 又名 Azure Blob 的 Hadoop HDI
我们有一个 Azure Hadoop HDI 系统,其中大部分文件都存储在 Azure 存储帐户 Blob 中。从 Hadoop 访问文件需要 WASBS:// 文件系统类型。
我想将 SQL 2016 Polybase 配置为将计算下推到 HDI 群集,以对存储在 Azure blob 中的数据进行某些查询。
可以在 Polybase 中使用 Hadoop 之外的 Azure Blob。我完全理解查询提示“选项(FORCE EXTERNLPUSHDOWN)”在 Blob 系统上不起作用。
是否可以配置外部数据源以使用 HDI 在 blob 上进行计算?
一个典型的外部数据源配置是:
我相信只要 WASBS 在那里,下推计算就不会起作用。
如果我将上面的内容更改为使用 HDFS,那么我当然可以指向我的 HDI 集群,但是 EXTERNAL TABLE 的 LOCATION 会是什么?
如果这是在 WASBS 中,那么如何在 HDFS 中找到它?LOCATION='/HdiSamples/HdiSamples/MahoutMovieData/'
当然,有一种方法可以让 Polybase 将计算下推到文件位于 WASBS 中的 HDI 集群。如果不支持,则 Polybase 不支持最常用和推荐的设置 HDI 的方法。
我知道以上内容需要考虑很多,我们将不胜感激。如果你真的确定这是不可能的,就回答 NO。请记住,尽管我意识到在 Azure Blob 上直接运行的 Polybase 无法下推计算。我希望 Polybase 连接到 HDI 并让 HDI 在 blob 上进行计算。
编辑
请考虑使用 HDI 在 Azure 中进行以下设置。
请注意,默认的 Hadoop 文件系统是 WASBS。这意味着使用 /HdiSamples/HdiSamples/MahoutMovieData/user-ratings.txt 等相对路径将解析为 wasbs://YourClusterName@YourStorageAccount.blob.core.windows.net/HdiSamples/HdiSamples/MahoutMovieData/user-ratings.txt .
Hadoop 中的文件中有很多行。然而,这个查询返回 0。
当我检查远程查询执行计划时,它显示:
请注意,URI 是绝对路径,并根据外部数据源设置为 HDFS。
查询成功并返回零,因为它正在查找 HDFS 文件系统中不存在的文件/路径。如果没有表,则不返回“找不到表”。这是正常的。不好的是真正的表存储在 WASBS 中并且有很多行。
这意味着当使用 Azure Blobs 作为 Hadoop 默认文件系统时,不支持下推计算。推荐的设置是使用 Azure Blob,以便存储与计算分开。PolyBase 不支持这种设置是没有意义的,但截至目前它似乎不支持它。
如果我错了,我会留下这个问题。我真的想错了。
azure - 使用 Polybase 的 Azure SQL DW 到 Azure SQL DW
我知道您可以使用 polybase 使用外部表将大量数据从 Blob 存储加载到 Azure SQL DW。但是有没有可能我们可以直接使用polybase将数据从SQL DW导入另一个SQL DW?还是有其他方法?必须有一些方法来避免在这两个 SQL DW 中的控制节点。
azure - Azure 数据工厂复制活动性能调整
https://docs.microsoft.com/en-us/azure/data-factory/data-factory-load-sql-data-warehouse。根据这个 1000 DWU 和 polybase 的链接,我应该得到 200MBps 的吞吐量。但我得到 4.66 MBps。我在 xlargerc 资源类中添加了用户,以实现 azure sql 数据仓库的最佳吞吐量。
下面是管道 JSON。
输入数据集:
输出数据集:
配置中是否缺少任何内容?
azure - Polybase 指向本地本地文件?
我有一个独特的情况,我所有的 orc 文件都作为压缩的 orc 文件位于 blob 存储上的 Azure 上。我需要将这些文件加载到 prem SQL DB 中。我可以使用 polybase 下载我理解的数据,但这需要很长时间。我认为网络连接是这里的瓶颈,因为 poly base 必须解压缩这些文件,运行 map reduce 作业并通过网络将数据检索到 prem SQL 表中。我没有任何其他 SQL 框来尝试 polybase 横向扩展。
但是我可以将这些兽人文件下载到本地驱动器中,但我不知道如何编写外部数据源来指向本地文件。微软没有任何文档。外部数据源是否可能指向本地orc文件?我非常怀疑它,但只是试一试。
其他解决方案是在本地解压缩这些 orc 文件并加载它,但我不知道有什么工具可以做到这一点?请推荐一些工具。
sql-server - 为什么微软不能为 SQL Server 2016 实现 CETAS 导出?
我想以压缩的 orc 格式将一些数据直接从 SQL Server 导出到 Azure Blob 存储,但似乎没有像使用 CETAS 语句的 Azure SQL DW 这样的导出方式?我想知道为什么 Microsoft 没有在 SQL Server 2016 中包含此功能。