“azure-synapse”的相关标签问题

0 投票

1 回答

54 浏览

data-warehouse - 查询 ADLS gen 2 上的性能

我正在尝试将我们的“老派”数据库（主要是时间序列）迁移到 Azure 数据湖。

所以我拿了一张随机表（10 年的数据，2 亿条记录，20Gb），将数据复制到单个 csv 文件中，也复制到相同的数据中，并创建了 4000 个每日文件（在每月文件夹中）。

在这两组文件之上，我创建了 2 个外部表....而且我得到的性能几乎相同。（？！？）

无论我在查询什么，无论我是在一天内查找数据（因此在一个小文件中）还是对整个数据集进行求和......基本上都需要 3 分钟，无论我在寻找在单个文件或每日文件 (4000) 中。就好像在做任何事情之前必须将整个数据集加载到内存中？！？

那么是否有一个我可以更改的设置，以避免在不需要时加载所有数据？它实际上可以使我的查询速度提高 1000 倍。

据我了解，外部表上不可能有索引。创建物化视图将破坏使用 Lake 的目的。吨

全面披露; 我是 Azure 数据存储的新手，我正在尝试看看它是否是解决我们问题的正确技术。

2020-04-13T01:33:29.640

0 投票

1 回答

813 浏览

orc - Azure SQL 数据仓库 (Synapse Analytics) 使用 ORC 表的 Polybase 性能

我在 Azure 存储帐户（带 ADLS Gen2 功能）上使用 Spark（Databricks）生成了一个 ORC 表（使用 Snappy 压缩）。这个 ORC 代表大约 12 GB 的数据（12 亿行）。该表有 32 列。

生成后，我使用 Polybase 将该文件加载到 Synapse Analytics 表中的内部表中。

这是我使用不同配置的结果：

DW100c / smallrc = 3h52
DW400c / smallrc = 1h50
DW400c / xlargerc = 1h58
DW1000c / xlargerc = 0h50
DW1500c / xlargerc = 0h42

当我查看存储帐户入口/出口时，我看到了几分钟内的活动（可能是为了在 Synapse 节点之间复制 ORC 文件）......然后 Synapse 资源开始受到压力。我看到 CPU 活动了一段时间，然后内存慢慢增加，缓慢，...

这里的内存（红色）和 CPU 最大百分比（蓝色）示例：

我需要再次扩大规模吗？我认为这不是网络吞吐量的 pb。或者可能是配置问题？关于 Polybase，我不明白为什么这么慢。Polybase 有望快速摄取 TB 的 ORC 数据！

BR，A.

编辑：DWU 使用

orc azure-sql-data-warehouse polybase azure-synapse

2020-04-13T09:04:00.103

0 投票

1 回答

424 浏览

azure - 从本地 MySQL 提取和转换数据到 Azure Synapse 数据仓库

我正在尝试在 Azure Synapse 中设置演示数据仓库。我想从本地 MySQL 数据库中提取数据，转换和聚合一些数据，并将其存储在 Azure Synapse Analytics 中的事实/维度表中。

目前我有一个 Azure SQL 数据仓库和数据工厂的实例。我在数据工厂中创建了与我的 MySQL 数据库的连接，我的想法是，我可以使用此连接器作为新数据流的输入，该数据流转换数据集并将其存储到我的目标数据集，该数据集链接到我的 Azure Synapse 数据仓库.

问题是，数据工厂只支持一些 Azure 服务，如 Azure Data Lake 或 Azure SQL 数据库作为新数据流的源。

解决这个问题的最佳实践是什么？创建 Azure SQL 数据库实例，将数据从本地 MySQL 数据库复制到 Azure SQL 数据库，然后将其用作新数据流的源？

azure etl azure-data-factory azure-sql-data-warehouse azure-synapse

2020-04-13T14:54:59.713

0 投票

2 回答

82 浏览

azure-sqldw - 使用通配符复制到路径 = 索引超出范围

我正在尝试使用 COPY INTO 来摄取存储帐户（ADLS Gen2）上文件夹中的文件。

如果我连接每个文件的路径，它就可以工作。

如果我使用这样的通配符：

我有这个错误：

有什么线索吗？

azure-sqldw azure-synapse

2020-04-17T09:51:23.273

0 投票

0 回答

114 浏览

sql-server - 如何从 Azure Synapse Analytics 读取记录？

sql-server tsql azure-synapse

2020-04-18T08:53:14.343

0 投票

1 回答

719 浏览

azure - Azure 数据工厂与 Synapse 工作区管道

谁能向我解释 Azure Synapse Workspace Pipelines 和 Azure 数据工厂之间的区别？似乎有很多重叠，或者好像数据工厂正在成为 Synapse Workspace 管道的一部分？

我仍在努力澄清这一点。谢谢迈克

azure azure-data-factory azure-synapse

2020-04-20T19:44:53.400

0 投票

1 回答

296 浏览

azure - Azure DF - 从数据库中提取日期时间到 CSV 时，有时会被解释为 datetime2

运行从 CSV 到 Synapse 表的 Azure 数据工厂副本时，我们会遇到间歇性截断错误。目标表模式（在 Synapse 中）是我们最初从中提取数据的模式的镜像。

我们发现发生的事情是原始提取将日期时间误解为 datetime2 并将相关字段呈现为：2019-10-07 11:22:31.4400000 当我们从 Azure Data Lake Storage Gen2 运行副本到镜像 Synapse 表时，架构将该字段作为日期时间。复制函数尝试将字符串（CSV 和所有）转换为日期时间（与原始表相同）但失败。（错误：从字符串转换日期和/或时间时转换失败。）有趣的是，这个问题是间歇性的 - 原始日期时间字段有时会正确呈现为 CSV：2019-10-07 11:22:31.440（如图） .

我们将所有 SQL Db 模式重构为 datetime2 数据类型的愿望有限（出于显而易见的原因）。任何人都知道我们是否在这里遗漏了什么？

azure azure-data-factory azure-data-factory-2 azure-sql-data-warehouse azure-synapse

2020-04-24T07:54:55.380

0 投票

1 回答

3276 浏览