问题标签 [polybase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 在 Azure SQL 数据仓库中使用 Polybase 访问 Hadoop (Azure IaaS) HDFS 文件
我正在尝试使用 Azure SQLDW 中的 Polybase 来访问 Cloudera 集群中 HDFS 中的分隔文件(在 Azure 中作为 IaaS 配置)但是我遇到了以下错误:
消息 105019,级别 16,状态 1,第 40 行外部表访问因内部错误而失败:“调用 HdfsBridge_IsDirExist 时引发 Java 异常。Java 异常消息:Call From DB55/10.0.0.59 to 10 .. . :8020 套接字超时异常失败:org.apache.hadoop.net.ConnectTimeoutException:等待通道准备好连接时超时 20000 毫秒。ch : java.nio.channels.SocketChannel[connection-pending remote=10.56.140.31/10.56.140.31:8020]; 有关更多详细信息,请参阅: http ://wiki.apache.org/hadoop/SocketTimeout:错误 [从 DB55/10.0.0.59 调用到 10.56.140.31:8020 在套接字超时异常上失败:org.apache.hadoop.net.ConnectTimeoutException:等待通道准备好连接时出现 20000 毫秒超时。ch : java.nio.channels.SocketChannel[connection-pending remote=10. . . /10。. .*:8020]; 有关更多详细信息,请参阅: http://wiki.apache.org/hadoop/SocketTimeout]访问外部文件时发生。
我使用了以下 Polybase T-SQL 脚本:
创建主密钥;
使用 IDENTITY = 'user_name',Secret = 'password' 创建数据库范围凭证 HadoopUser1;
创建外部数据源 MyHadoopCluster (
TYPE = HADOOP,
LOCATION ='hdfs://10 ... : 8020',
RESOURCE_MANAGER_LOCATION = '10 ... : 8032',
CREDENTIAL = HadoopUser1);创建外部文件格式 TextFile WITH ( FORMAT_TYPE = DelimitedText, FORMAT_OPTIONS (FIELD_TERMINATOR = ',') );
创建外部表 dbo.PolyCloudera (Id INT NOT NULL, Number INT NOT NULL, ZIPCODE INT NOT NULL) WITH (LOCATION='/user/hive/warehouse/sample_poly', DATA_SOURCE=MyHadoopCluster, FILE_FORMAT=TextFile);
Cloudera 集群和 Azure SQLDW 之间没有连接问题(因为我能够使用 BCP、JDBC 将数据从 Cloudera 集群摄取到 SQLDW 实例) Cloudera 集群尚未进行 kerberized。数据库范围凭据中指定的用户名和密码存在于 Cloudera Cluster 的底层 Linux 文件系统中。在这件事上的任何帮助将不胜感激。
polybase - Polybase 性能问题
我正在尝试从 Polybase 2016 连接我的 Hadoop 集群(Cloudera)。当我从 Polybase 查询 Hadoop 集群时,我得到的性能非常慢。事实上,它比相同数据大小的本地 SQL Server 表慢 50 倍。是否有人致力于提高 Polybase 的查询性能?
问候,
里图·兰詹
azure-sql-database - polybase 中的外部文件格式是否支持行终止符?
我正在加载一个 BCPed 数据,它有几行在数据本身中包含换行符。因此,当我尝试导入这些数据时,它会引发错误。要解决此问题,我需要将外部文件格式的行终止符指定为 \r\n。polybase 是否允许行终止符?如果是这样怎么办?
azure - StorageTable 中的 Azure PolyBase 外部表
有人可以向我解释为什么我可以将 azure BlobStorage 引用为外部表而不是 azure StorageTable 吗?我在纪录片的某个地方错过了吗?如果我没有错过它,这对我来说有点讽刺,这真的是不可能的。
与@wBob 答案相关
我创建了一个 uservoice 想法,如果您发现这是一个缺失的功能,请投票:
sql-server - 使用 hadoop 的 SQL Server 2016 polybase 错误
我的 hdfs 上有一个简单的管道分隔文件 (newfile.txt),并且我已经正确配置了我的 polybase。我很难使用 Polybase 将此文件导入我的 SQL Server。以下是查询:
首先创建一个外部文件格式:
其次,创建Hadoopcluster的数据源:
最后,创建从 hdfs 导入数据的外部表:
运行上述查询后,这是我最终得到的错误:
Msg 596, Level 21, State 1, Line 26
无法继续执行,因为会话处于终止状态。消息 0,级别 20,状态 0,第 26 行
当前命令发生严重错误。结果,如果有的话,应该丢弃。
我确信磁盘空间没有问题。请协助。
更新: 正在使用 HDP 2.5 版本。我已经成功安装了 Polybase,这是我尝试从 hdfs 导入的第一个外部表。
txt文件的格式有2行2列:
1234|abcd
5676|efgh
azure - Polybase over Data Lake - 什么是 OAuth_2.0_Token_EndPoint?
我正在尝试按照 microsoft guide将我的 Azure SQL 数据仓库连接到我的 Datalake 。
Microsoft 提供了以下代码示例,但没有说明 OAuth_2.0_Token_EndPoint 是什么以及在 Azure 门户中的何处可以找到它。
我该如何确定这应该是什么?
polybase - 我们可以在没有 Azure 的情况下使用 SQL Server 2016 Polybase 吗?
我正在尝试找到一个示例,我可以在其中看到 SQL Server 2016 polybase 在本地计算机上的端到端安装,该计算机连接到不在 Azure 上的 Hadoop。
azure - 带有日期分区的 HdInsight Azure DW Polybase 到 Hive 表 (ORC) 失败
我正在尝试在 Azure 数据仓库中为 Hive 表创建一个 polybase 外部表,该表存储为 ORC(HD Insight Data Lake)并在我查询外部表时按日期分区,它在 SQL 服务器中失败而没有任何适当的错误消息。
当我不使用分区时,我可以使用外部表访问 hive ORC 表,但是对于分区,我在没有任何正确错误消息的情况下出现错误。
错误:
Msg 106000, Level 16, State 1, Line 33 Index: 23, Size: 23
细节:
蜂巢表:
创建外部表 DL_ClickStream_fnl(
.
.) PARTITIONED BY(TIME_STAMP Date) 存储为 ORC;
Azure DW 外部表:
创建外部表 [stg].[dl_clickstream_procd] (
.
.
) WITH (DATA_SOURCE = [AzureDataLakeStore_clusters],LOCATION = N'clusters/BLMSpark/hive/warehouse/coremetrics.db/dl_clickstream_procd',FILE_FORMAT = [ORCFileFormat_DL],REJECT_TYPE = VALUE,REJECT_VALUE = 2)
文件格式:
创建外部文件格式 [ORCFileFormat_DL] WITH (FORMAT_TYPE = ORC)
azure - 在 polybase 中使用 unicode 字段终止符
在为存储在 Azure blob 存储中的外部数据创建 PolyBase 外部文件格式定义时,我正在努力将字段终止符指定为 unicode 字符。我想指定 unicode 字符的原因是因为当我使用 Azure 数据工厂在 azure blob 中加载数据时,复制活动不支持指定多个字符作为列分隔符,除非它是一个 unicode 字符,如\u0081
azure - 将增量数据加载到 azure 数据湖和 azure 数据仓库的最佳实践
我计划实施 azure BI。我需要有关如何使用 azure 数据湖、azure sql 数据仓库、azure 数据工厂 + poly base 实现增量数据加载的专家建议。我们应该以哪种格式将数据存储在 azure 数据湖等中。
谢谢努坦帕特尔