问题标签 [polybase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 仅将最新文件数据加载到 Azure SQL 数据仓库
步骤#1:我们应该将 CSV 文件从本地文件服务器复制到 Azure Blob 存储(比如 - Blob 存储中的“暂存”容器)。步骤#2:应用 Polybase,我们将这些文件数据加载到 Azure SQL 数据仓库。
每次从本地文件服务器加载到 Azure Blob 时,我们都会维护相同的文件名(与暂存数据库表同步)。我们在将数据从 blob 存储加载到 Azure Datawarehouse 时面临挑战,因为在每个批处理周期执行期间(使用 ADF 管道运行),我们必须处理和加载从暂存到 Azure SQL DWH 的所有文件。我们每天运行 4 个批次循环。对于每个周期,我们都在处理最新文件以及已经处理的旧文件。有什么办法,我们只能在本地文件服务器上为每个单独的批处理作业加载当前可用的文件。(我的意思是,我们会将这些文件加载到 staging 中,并且只将这些文件处理到 sql dwh 而不接触其他文件)。
sql - 从 polybase 连接到 hadoop 时连接被拒绝
尝试在 Ubuntu 16.04 中创建从 sql server 2017 到 Hadoop 的外部表时,会引发以下错误
消息 105019,级别 16,状态 1,行 1 外部表访问因内部错误而失败:'调用 HdfsBridge_IsDirExist 时引发 Java 异常。Java 异常消息:从 DESKTOP-VE8KNAG/xxx.xxx.x.xxx 调用到 xxx.xxx.xx:54310 连接异常失败:java.net.ConnectException:连接被拒绝:没有更多信息;有关更多详细信息,请参阅: http ://wiki.apache.org/hadoop/ConnectionRefused:错误 [从 DESKTOP-VE8KNAG/1xxx.xxx.x.xxx 调用到 xxx.xxx.xx:54310 连接异常失败:java.net .ConnectException:连接被拒绝:没有更多信息;有关更多详细信息,请参阅: http://wiki.apache.org/hadoop/ConnectionRefused]在访问外部文件时发生。
- 从 core-site.xml 获取外部源位置
- tmp 文件夹被创建并添加了权限给用户并添加到 core-site.xml
- 所有节点都在 Hadoop 中运行 10625 DataNode 10869 SecondaryNameNode 17113 ResourceManager 17434 NodeManager 10490 NameNode 21566 Jps
sql查询
核心站点.xml
有什么需要改变的吗?
azure-data-lake - 将 Azure 数据仓库连接到数据湖
我们可以从 Azure 数据仓库连接到 Azure 目录表或 Lake Store 文件作为外部表吗?
我希望能够对 Azure 数据仓库运行 SQL 查询,但希望从数据湖中获取数据。
kerberos - GSSException:在将 Polybase 与 Kerberos 连接时,未提供有效凭据(机制级别:无法找到任何 Kerberos tgt)
我们希望通过 Polybase 将我们的 SQL Server 2016 Enterprise 与带有 Cloudera 5.14 的 Kerberized OnPrem Hadoop-Cluster 连接起来。
我按照Microsoft PolyBase 指南配置 Polybase。在这个主题上工作了几天后,由于出现异常,我无法继续:javax.security.sasl.SaslException:GSS 启动失败 [由 GSSException 引起:未提供有效凭据(机制级别:找不到任何 Kerberos tgt) ]
Microsoft 有一个内置的诊断工具,用于解决与 PolyBase 和 Kerberos 的连接问题。在 Microsoft 的此故障排除指南中,有 4 个检查点,我被困在检查点 4 上。有关检查点的简短信息(我成功的地方):
- 检查点1:成功!针对 KDC 进行身份验证并收到 TGT
- 检查点2:成功!关于故障排除指南 PolyBase 将尝试访问 HDFS 并失败,因为请求不包含必要的服务票证。
- 检查点 3:成功!第二个十六进制转储表明 SQL Server 成功使用了 TGT 并从 KDC 获取了名称节点的 SPN 的适用服务票证。
- 检查点 4: Hadoop 使用 ST(服务票证)对 SQL Server 进行身份验证不成功,并且授予会话以访问受保护的资源。
krb5.conf 文件
SQL-Server 上 Polybase 的 core-site.xml
用于 SQL-Server 上 Polybase 的 hdfs-site.xml
Polybase 异常
NameNode 上的日志条目
对我来说,令人困惑的部分是来自我们的 NameNode 的日志条目,因为带有 HMAC SHA1-96 的 AES128 CTS 模式已经在允许的 enctypes 列表中,如 krb5.conf 和 Cloudera Manager UI 中所示
我们感谢您的帮助!
azure-data-factory - 使用 Azure 数据工厂加载数据时出现问题
我正在尝试通过 Azure 数据工厂将大量 csv 文件从 blob 存储加载到 Azure SQL 数据仓库。当我处理大量行时,所需的方法是使用 PolyBase 批量加载数据。当我将源指向一个文件时,SQL DW PolyBase 显示为 true,但当我指向所有 csv 文件时,SQL DW PolyBase 显示为 false。有没有人遇到过这个问题?
polybase - 在 Polybase 中更改表
当我创建一个外部表并指向一个 Hadoop HDF 时,我忘记在脚本中添加一个拒绝。当 Alter Table with Reject 限制为 100 时出现错误,
ALTER TABLE ad_doc_actg 拒绝限制 100;
消息 102,级别 15,状态 1,第 1 行 'REJECT' 附近的语法不正确。
SQL Server 2017 Polybase 中是否允许更改外部表?
newline - 文件中的换行符和回车符无法在 Polybase 中解析
最近我遇到了这个麻烦。我已经使用数据工厂从系统中导出了数据,并将其保存为 blob 存储中的 txt 文件。我们使用 polybase 从 Azure 数据仓库读取数据,由于换行和回车输入文本列而导致读取失败。
目前 Polybase 无法处理此问题,导入将失败。
我从 RDBM 为每个文件生成了大量文本文件,但我无法在表的每一列中找到和替换,我想知道在 blob 中生成文件后是否有办法查找和替换新行,并且在列中返回回车。
还是有其他更好的解决方案或解决此问题的方法?
谢谢
sql-server - 在 Azure SQL Server 上安装和配置 Polybase - 找不到存储过程“sp_configure”
我正在尝试设置一个包含数据的 PolyBase(外部)表
- Azure SQL Server 数据库托管在 Azure SQL Server 上(通过门户设置)
- Azure Blob 存储(CSV 数据)
SQL Server 版本:
动机是运行一些查询连接两个数据源。
Azure SQL Server 是否附带 PolyBase 设置?我不知道如何从这些文档中提到的 azure 控制台启用“外部数据的 polybase 查询服务”
当我尝试通过 SQL Server Management Studio 运行这些配置步骤以启用 polybase 和设置连接时:
我收到一个错误
找不到存储过程“sp_configure”
也运行这个查询
回报 -0
但是,我能够运行这些查询并创建外部数据源
当我尝试创建一个新的外部文件时
我收到错误
'EXTERNAL' 附近的语法不正确
我的问题是:
Azure SQL Server 是否启用了 polybase?如果没有,我该如何启用它们?
创建我打算用来创建外部表的外部格式可能会出现什么问题?
谢谢 !
azure - 使用 Azure SQLDW Polybase 使用 vnet 服务终结点从 ADLS Gen 1 引入数据
我正在尝试使用 Azure SQL 数据仓库 (SQLDW) 中的 Polybase 在 Azure Data Lake Store (ADLS) Gen 1 上提取数据(以 Parquet 格式从 VNET 中的 Hadoop 集群中持久保存)。该过程运行良好,但吞吐量我我得到的速度很差,即大约 10MBps。我的假设是流量通过 Internet 而不是通过 Azure 主干网络。为了解决这个问题,我启用了 VNET 服务端点,如下所示: VNET 到 ADLS(根据此链接) VNET 到 Azure SQL 数据仓库(根据此链接)
但是,即使这样做了,也没有性能提升。我的理解是启用此功能后,流量应该通过 Azure 主干网络,但没有区别。我在整个工作流程中遗漏了什么吗?
sql-server - Sql Server 2019 Polybase 功能问题
我正在尝试在 SQL Server 2019 上配置 PolyBase 以测试一些新功能。
我已经安装了这个功能并按照以下说明执行了所有步骤:
在 Windows 上安装 PolyBase
尝试在 Azure Data Studio 中配置与外部表的连接时收到错误通知:
我无法启动 SQL Server PolyBase Engine 服务,也许在这种情况下它有一些事情要做:
任何想法如何正确配置它以使用 PolyBase?