问题标签 [azure-data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2468 浏览

azure - 如何使用 webhdfs API 访问 Azure 数据湖

我们刚刚开始评估 Azure 的数据湖服务。我们创建了湖,通过门户我们可以看到服务的两个公共 URL。(一个是 https:// 方案,另一个是 adl:// 方案)

datalake 文档指出确实有两个接口:webHDFS REST API 和 ADL。所以,我假设 https:// 方案为我提供了 wehHDFS 接口。但是,我在 Azure 上找不到有关使用此界面的更多信息。

我尝试使用 Web 浏览器和 curl 戳给定的 https:// URL。服务正在响应。回复是 JSON,正如预期的那样,因为数据湖是 Hadoop 的一个实例。但是,我似乎无法访问我的文件 [我通过门户上传到我们的湖中]。

例如,如果我对“/foo.txt”执行 GET,则回复是一个错误,ResourceNotFound。

如果我使用典型的 Hadoop HDFS 语法“/webhdfs/v1/foo.txt”执行 GET,则回复是错误,AuthenticationFailed。附加文本表示缺少访问令牌。这似乎更有希望。但是,找不到任何有关生成此类访问令牌的信息。

有一些关于使用 ADL 接口、.NET 和 Visual Studio 的文档,但这不是我最初想要的。

非常感谢任何帮助!

0 投票
1 回答
102 浏览

azure-data-lake - 数据湖分析是否支持创建关系数据库

似乎数据湖分析支持创建数据库,但我们也可以创建关系数据库吗?

0 投票
1 回答
782 浏览

c# - 运行几个小时后,Azure 数据工厂中的自定义活动失败

我正在使用按需 HDInsight 群集在 Azure 数据工厂中运行自定义 .Net 活动。Activity 处理存储在 Azure Blob 中的 XML 文件,并将它们移动到 Azure Data Lake Store。执行 28 小时后失败,出现以下错误:

“活动中的错误:请求被中止:请求被取消..”

没有可用于此活动运行的日志文件,并且上述错误不足以解决问题。如何解决此问题?

0 投票
1 回答
1130 浏览

azure-active-directory - 使用 Azure Data Lake 的 WebHDFS 的授权标头

我正在尝试将 WebHDFS 与 Azure Data Lake 一起使用。根据微软的文档,应该遵循的步骤是:

  • 在 Azure AD 中创建一个具有 Azure 管理服务的密钥和委派权限的新应用程序
  • 使用 client_id、tenant_id 和密钥,向 OAUTH2 端点发出请求

    curl -X POST https://login.microsoftonline.com/<TENANT-ID>/oauth2/token \ -F grant_type=client_credentials \ -F resource=https://management.core.windows.net/ \ -F client_id=<CLIENT-ID> \ -F client_secret=<AUTH-KEY>

成功后,您将返回一些 JSON,包括“access_token”对象,您应该通过添加标头将这些内容包含在后续 WebHDFS 请求中

<content of "access_token">“access_token”对象中的长字符串在哪里。

包含该标头后,您应该能够进行 WebHDFS 调用,例如列出目录,您可以这样做

遵循所有这些步骤后,在运行上述 curl 命令列出目录时出现 HTTP 401 错误:

与身体

有谁知道可能是什么问题?

我将令牌粘贴到jwt.io并且它是有效的(没有检查签名)。内容是这样的:

0 投票
1 回答
4022 浏览

azure - Google 的 BigQuery 与 Azure 数据湖 U-SQL

我试图了解谷歌的大查询和 Azure 数据湖 U-SQL 之间的区别或优缺点。哪个更好 ?我已经详尽地搜索了最大的区别是什么,但找不到。

0 投票
1 回答
287 浏览

azure-data-lake - 如果发生故障,我在哪里可以查看 Azure Data Lake Analytics U-SQL 作业的错误详细信息?

一种方法是下载文件并运行本地作业以获取错误详细信息。有时很难走这条路。是否有任何地方可以看到错误详细信息,因为门户网站或作业错误面板中显示的详细信息不完整,您无法找到失败的原因。

0 投票
1 回答
1933 浏览

azure-data-lake - U-SQL 中字符串的最大允许大小是多少?

在处理 CSV 文件时,我收到关于最大字符串大小的错误。“字符串大小超过了允许的最大大小”。

0 投票
2 回答
258 浏览

azure - 完成后我们应该删除DataLake Analytic Job吗?

我们非常频繁地提交 U-SQL 作业,并且我们看到了以前在 ADLA 中提交的作业列表。

我们看到 Data Lake 存储的总存储利用率正在与日俱增。我们提交的所有作业仅更新一个输出文件,大小约为 10 MB。

Data Lake 存储的当前存储利用率为 9.3 GB。我们认为这是由于之前的作业资源仍保存在数据湖中。我们应该解决这个问题还是应该在这里做点什么?

0 投票
2 回答
1395 浏览

azure-automation - 安排 azure 数据湖分析 u-sql 作业

有没有办法自动化数据湖分析作业并按计划运行它们?

0 投票
1 回答
194 浏览

azure-data-lake - U-SQL 查询优化器行为

好的,这就是正在做的事情。我有一个执行以下操作的 U-SQL 脚本。

步骤 1. 在 txn 表“A”中插入一条记录,例如“PROCESSING STARTED”,记录步骤 2 的开始。步骤 2.从文件中提取步骤 3.使用步骤 2 中的行集插入表“B”。步骤4. INSERT a record into a txn table 'A' say "PROCESSING FINISHED",记录步骤2的成功执行。

当我编写上述代码时,我希望上述步骤将按上述顺序执行。令我惊讶的是,事实并非如此,当我仔细研究代数时,我了解到查询优化器打乱了我所有的任务,并按如下方式运行它。

  1. 所有提取物
  2. 所有拆分、聚合、分区
  3. 所有写入(如果您注意到有 2 个表正在插入)

所以我在这里的问题是如何确保 Step 2, Step 3 仅在 Step 1 之后执行?到目前为止,我并不在意第 4 步。我也可以按以下方式运行,但我希望还有其他选择。作业 1(步骤 1) 作业 2(步骤 2、3) 作业 3(步骤 4)

请问你能帮忙吗?