“azure-synapse”的相关标签问题

0 投票

2 回答

112 浏览

azure - 流分析输出到 ARM 模板中的 Synapse Analytics

我发现关于如何从流分析输出到 Azure Synapse Analytics 作为输出的绝对 0 文档...我已经在门户中配置了它，但是当我导出模板时，除了姓名。

我尝试从头开始构建它，但根本没有文档。如何将其写入 ARM 模板？我有以下...

并且没有关于如何填写它的详细信息......这种类型的输出的类型是什么，我什至如何用 0 文档填写属性？

2020-07-01T13:15:40.493

0 投票

0 回答

250 浏览

azure - 错误 o Azure Synapse Analytics - 无法为数据库分配新页面

我们在 Azure Synaspse Analytics - Azure Data WareHouse 上收到一些错误。

以下消息：Could not allocate a new page for database 'Distribution_12' because of insufficient disk space in filegroup 'PRIMARY'. Create the necessary space by dropping objects in the filegroup, adding additional files to the filegroup, or setting autogrowth on for existing files in the filegroup.

它在 2020 年 6 月 26 日最后一次 Syanpse 发布之后开始发生。

一开始，它只出现在大型数据移动作业中，而今天，它几乎出现在 SQL 作业中。

azure space disk azure-synapse

2020-07-01T13:27:00.317

0 投票

1 回答

655 浏览

azure - 外部表 Azure Synapse 不返回数据

我正在尝试创建一个EXTERNAL TABLE，将其从Blob Storage本教程Load Contoso 零售数据加载到 Synapse SQL中映射。

但是当我查询表时出现此错误： Failed to execute query. Error: HdfsBridge::recordReaderFillBuffer - Unexpected error encountered filling record reader buffer: HadoopExecutionException: Too many columns in the line.

我的文件配置是：

A: Create a database scoped credential

B: Create an external data source

C: Create the file format to be read from blob storage

D: Create the external table

我只使用nvarchar数据类型来避免Error converting data type VARCHAR to DATETIME此测试中的转换错误。

我的文件格式是：

我尝试了多种形式来解决这个问题，但没有成功。

azure azure-sql-data-warehouse azure-synapse

2020-07-02T15:17:49.533

0 投票

2 回答

1437 浏览

azure - 将 PySpark Dataframe 写入 Azure Synapse 时面临的问题

我在 Azure Databricks 中有一个 PySpark 数据框。我想写入 Azure Synapse。但我得到了错误。

我检查了 Synapse 的连接。一切正常，我能够读取数据。但是在写作时，我遇到了问题。任何人都可以帮助如何处理这个错误。

将数据写入 Synapse 的代码：

azure pyspark databricks azure-databricks azure-synapse

2020-07-02T16:39:22.107

0 投票

1 回答

887 浏览

azure-functions - 事件中心数据到 SQL 数据仓库 (Synapse)

我们正在尝试将事件中心 (EH) 数据（每分钟约 200MB 和 50k 条消息）集成到 SQL 数据仓库 (DW) 暂存区。

到目前为止，我们已尝试通过使用 Azure 函数 (AF) 直接读取 EH 数据并将其输出到 Synapse 来解决此问题，但我们已达到 DW 的最大并发打开会话数（< DWU500c 为 512）。我们还尝试增加从 EH 读取的maxBatchSize，以减少 DW 端所需的会话，但这似乎使 AF 非常不稳定。

今天我在 Microsoft 文档中找到了本教程，该教程通过使用 EH 捕获功能和事件网格 (EG) 在写入 Blob 文件时触发 AF 将 EH 与 AF 分离。那么我是否正确地假设这应该会大大减少 DW 中的最大并发打开会话，因为我们谈论的是更大的批量大小，当 AF 读取捕获的 Blob 文件时，其大小可达 500MB？

一种解决方案和另一种解决方案之间有哪些优势？您还有其他最佳实践来实现这一目标吗？

提前谢谢！

azure-functions azure-eventhub azure-eventgrid azure-synapse azure-eventhub-capture

2020-07-04T11:21:12.970

0 投票

1 回答

495 浏览

apache-spark - 从 Databricks 到 Azure Synapse Analytics：当我们将数据帧加载到表中时，为什么需要将 parquet.writeLegacyFormat 设置为 True？

我需要将在 Databricks 中创建的数据帧加载到 Azure Synapse 中。现在，Microsoft 的示例需要为 Parquet 设置 Spark 配置，如下所示：

为什么它需要是遗留格式（即 Spark 1.4 <）？它是强制性的吗？

*在 Databricks 中，默认值为 False。

上面的语句是每个会话的，所以它不会影响其他正在运行的作业，但是我想知道为什么我们需要使用遗留格式？
我们是否有替代方法，例如存储为 Parquet 文件（为 False），然后使用 Polybase 查询 ADLSg2？

我应该提前感谢您的反馈/建议。

<来自 Spark 3.0.0 >

如果为真，数据将以 Spark 1.4 及更早版本的方式写入。例如，十进制值将以 Apache Parquet 的固定长度字节数组格式写入，Apache Hive 和 Apache Impala 等其他系统使用该格式。如果为 false，将使用 Parquet 中较新的格式。例如，小数将以基于 int 的格式写入。如果 Parquet 输出旨在用于不支持这种较新格式的系统，请设置为 true。

apache-spark azure-databricks polybase azure-synapse

2020-07-09T14:47:57.367

0 投票

1 回答

291 浏览

python - COPY INTO 从 Azure Dala Lake gen2 到 Azure Synapse 不执行任何操作

我正在尝试使用本地 ssms 从 azure data Lake gen2 复制到 azure synapse 仓库中的表。该COPY INTO语句既不会引发任何错误，也不会转储数据。我正在将 pandas df 从 centos 服务器复制到使用sep=',', encoding='utf-8'. 这是我正在使用的 COPY 语句。

python pandas azure-data-lake-gen2 azure-synapse

2020-07-10T04:43:47.093

0 投票

1 回答

750 浏览

azure - 连接到 Azure Synapse SQL On-Demand 导致“不支持 syscharsets”错误

我使用SQL Pool和SQL On-Demand Pool运行 Azure Synapse Analytics 。两者都在 Azure 托管的虚拟专用网络中运行，并且已经为 SQL 池以及 SQL On-Demand 组件设置了所谓的专用终结点。

首先，我尝试使用ADO.NET完美的方式连接到两个私有端点。

之后，我连接了一个只支持 ODBC 的 BI 工具。

无论如何，与 SQL 池的 ODBC 连接工作正常。

与 SQL On-Demand 组件的 ODBC 连接导致连接错误"syscharsets is not supported"。

已经尝试过各种 ODBC 设置但没有成功，有什么想法吗？

谢谢。

azure odbc azure-sql-database azure-synapse

2020-07-10T06:20:10.023

0 投票

0 回答

789 浏览

python - 从 Databricks Python Notebook 在 Azure Synapse 中批量插入 PySpark Dataframe

使用批次

我有一个 PySpark 数据框，由 750 多个列和 250 万条记录组成，大约 6.5 GB。我正在从 Databricks python notebook 到 Azure Synapse 表进行批量插入（批量）。

以下是 Microsoft 文档中的示例代码 ( https://docs.databricks.com/data/data-sources/azure/synapse-analytics.html )

问题陈述：我需要为另外一个 PySpark Dataframe 实现相同的功能，它包含一列，其中包含 8000 多个 JSON 字符。在底层 Synapse 表中，此列是 nvarhcar(max) 类型。上述代码不适用于字符长度超过 4000 个字符的列。

对于这种情况，请帮助如何在上面的代码中处理这个问题。

python pyspark azure-databricks pyspark-dataframes azure-synapse

2020-07-12T16:46:57.613

0 投票

1 回答

891 浏览

sql - 在 Azure SQL DW 中生成 DDL 的选项

在 Azure SQL DW（突触）中找不到从 SSMS 生成 DDL 的选项。是否有任何替代方法可以使用 sqlcmd 或其他工具等工具获得相同的结果？

sql ssms azure-sqldw azure-synapse

2020-07-13T13:57:40.653

问题标签 [azure-synapse]

将数据写入 Synapse 的代码：

Reference