“azure-data-lake”的相关标签问题

0 投票

1 回答

120 浏览

cortana-intelligence - U-SQL：模式化输入文件

如何在 U-SQL 脚本中使用模式化输入文件？也就是说，如何使用多个文件作为 EXTRACT 子句的输入？

根据

https://msdn.microsoft.com/en-us/library/azure/mt621320.aspx?f=255&MSPPError=-2147217396

和

https://social.msdn.microsoft.com/Forums/en-US/0ad563d8-677c-46e7-bb3e-e1627025f2e9/read-data-from-multiple-files-and-folder-using-usql?forum=AzureDataLake&prof=必需的

我都试过了

和

两个版本都会导致错误消息抱怨“*”是无效字符。

2016-03-02T16:01:23.200

0 投票

1 回答

268 浏览

visual-studio-2015 - 从 Visual Studio 的服务器资源管理器中探索 Data Lake Analytics 帐户停止使用 InternalServerError

从 Visual Studio 的服务器资源管理器扩展 Azure Data Lake Analytics 帐户时出现以下错误。它工作正常，但最近它停止工作。我不确定是什么导致了这个问题，我该如何解决它。顺便说一句，我正在使用 VS2015。

visual-studio-2015 server-explorer azure-data-lake

2016-03-09T07:10:19.170

0 投票

2 回答

3935 浏览

azure-data-factory - U-SQL 无法从 JSON 文件中提取数据

我试图使用 USQL 从 JSON 文件中提取数据。查询成功运行而不产生任何输出数据或导致“顶点失败快速错误”。

JSON 文件如下所示：

我的 U-SQL 脚本是

azure-data-factory azure-data-lake u-sql

2016-03-10T10:22:59.773

0 投票

1 回答

1327 浏览

webhdfs - Azure 数据湖存储并发

我一直在玩弄 Azure Data Lake Store，在文档中微软声称该系统针对低延迟的小文件写入进行了优化。测试它我尝试对单个文件执行大量并行任务的写入，但这种方法在大多数情况下会失败，返回错误请求。此链接https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf表明 HDFS 不能处理单个文件的并发追加，所以我第二次尝试使用找到的 ConcurrentAppendAsync 方法在 API 中，但虽然该方法没有崩溃，但我的文件从未在商店中修改过。

webhdfs azure-data-lake

2016-03-10T22:40:13.817

0 投票

2 回答

383 浏览

azure-data-lake - Usql - 由于内部系统错误，作业失败 - NM_CANNOT_LAUNCH_JM

我收到以下系统错误，

活动中的错误：[{"errorId":"E_SYSTEM_NM_NMCANNOTLAUNCHJM","name":"NM_CANNOT_LAUNCH_JM","severity":"Error","source":"System","component":"NM","message": “由于内部系统错误，作业失败。” ,"details":"","description":"","resolution":"","helpLink":"","innerError":null}]。

该错误不是间歇性的。它所做的只是将文件从一个位置复制到另一个位置。它说内部系统错误 - 有什么想法吗？

以下是我的 Usql 脚本，

azure-data-lake u-sql

2016-03-17T10:08:47.810

0 投票

1 回答

1197 浏览

azure - 微软Azure集群和存储账户的区别

我正在从这门课程中学习。它要求创建一个新的 hdinsight 集群（选项是 hadoop、hbase、storm 或 spark）以及一个存储帐户。集群和存储帐户有什么区别？集群是否包括处理我的作业的处理器，存储帐户是否意味着存储我的数据的空间？为什么我不能将同一个存储帐户连接到不同的集群？

同样在 Microsoft Azure >> New >> Data + Analytics 下，我看到了 2 个选项：hdinsight，处理大数据的数据湖分析。这两者有什么区别？两人长得很像

HDInsight Microsoft 的基于云的大数据服务。Apache Hadoop 和其他流行的大数据解决方案。

数据湖分析大数据分析变得简单

azure azure-hdinsight azure-data-lake

2016-03-18T16:57:28.323

0 投票

2 回答

880 浏览

azure-machine-learning-studio - 如何使用 Azure Data Lake Store 作为 Azure ML 的输入数据集？

我正在将数据移动到 Azure Data Lake Store 并使用 Azure Data Lake Analytics 对其进行处理。数据采用 XML 格式，我正在通过XML Extractor读取它。现在我想从 Azure ML 访问这些数据，目前似乎不直接支持 Azure Data Lake 存储。

将 Azure Data Lake Store 与 Azure ML 结合使用的可能方式有哪些？

azure-machine-learning-studio azure-data-lake

2016-03-21T09:42:18.210

0 投票

1 回答

1850 浏览

azure-data-lake - 从 BCP CSV 文件中提取 U-SQL 错误

我有使用 BCP 从 SQL Server 提取的数据，该文件是 ASCII CSV。
日期采用 2016-03-03T23:00:00 格式。

运行提取时我得到

附加信息：

{"diagnosticCode":195887127,"severity":"Error","component":"RUNTIME","source":"User","errorId":"E_RUNTIME_USER_EXTRACT_COLUMN_CONVERSION_INVALID_ERROR","message":"尝试转换时出现无效字符列数据。","description":"HEX: \"223022\" 转换输入记录时出现无效字符。\n位置：第 1 行，第 21 列。","resolution":"检查输入是否有错误或使用 \"silent \" 切换到忽略输入中过大（过小）大小的行。\n考虑忽略 \"invalid\" 行可能会影响作业结果，并且类型必须可以为空才能忽略转换错误。","helpLink": ““，“细节”：”==================================================== ==========================================\nHEX:5432333B35313B34362D323031362E30332E30335432333B30303B30302D302D352D323031362E30332E30335432333B35313B34392F3536372D302D323031362E30332E3033\n ^\ nTEXT:T23:51:46,2016-03-03T23:00:00,0,5,2016-03-03T23:51:49.567,0,2016-03-03\n

您如何在提取时正确处理日期？我不清楚为什么它会在日期时间列的中间分裂。

示例行看起来像

50CA2FBB-95C3-4216-A729-999BE2DB491A,2016-03-03T23:51:49.567,1001464881,1001464795,1001464795,00000000-0000-0000-0000-000000000000,00000000-0000-0000-0000-000000000000,100 ,100 , ,12643,bCAwvRnNVwrKDXKxZkVed2Z1zHY=,o2lsnhueDApmvSbm31mh3aetYnc=,2016-03-03T23:50:46,2016-03-03T23:00:00,2016-03-03T23:51:46,20016-03,-0002: ,5,2016-03-03T23:51:49.567,0,2016-03-03T00:00:00,2016-03-03T23:59:59,00000000-0000-0000-0000-000000000000

azure-data-lake u-sql

2016-03-22T19:37:09.990

0 投票

1 回答

1123 浏览

azure - 顶点故障触发快速作业中止 - 数据提取期间抛出异常

我正在运行数据湖分析作业，在提取过程中出现错误。我在我的脚本中使用 TEXT 提取器和我自己的提取器。我尝试从包含由空格字符分隔的两列的文件中获取数据。当我在本地运行我的脚本时，一切正常，但当我尝试使用我的 DLA 帐户运行脚本时却不行。只有当我尝试从具有数千行（但只有 36 MB 数据）的文件中获取数据时，我才会遇到问题，对于较小的文件，一切也都可以正常工作。我注意到当顶点总数大于提取节点的顶点数时抛出异常。我在使用其他“大”文件（.csv、.tsv）和提取器时遇到了这个问题。有人能告诉我会发生什么吗？

错误信息：

顶点失败触发快速作业中止。顶点失败：SV1_Extract[0][0] 错误：顶点用户代码错误。顶点因快速失败错误而失败

脚本代码：

后面的代码：

部分示例文件：

在工作资源中，我发现了 jobError 消息：

“输入流中的列数异常。”-“描述”：“第 1 行输入记录中的列数异常。\n预期 2 列 - 处理 1 列中的 1 列。”-“分辨率”：“检查输入错误或使用 \"silent\" 开关忽略输入中过大（过小）大小的行。\n请考虑忽略 \"invalid\" 行可能会影响作业结果。

但我再次检查了文件，并没有看到不正确的列数。该错误是否可能是由不正确的文件拆分和分发引起的？我读到可以并行提取大文件。对不起我的英语不好。

azure azure-data-lake u-sql

2016-03-22T19:50:15.570

0 投票

2 回答

1204 浏览

azure-storage - Error trying to move data from Azure table to DataLake store with DataFactory

I've been building a Datafactory pipeline to move data from my azure table storage to a datalake store, but the tasks fail with an exception that I can't find any information on. The error is

Copy activity encountered a user error: ErrorCode=UserErrorTabularCopyBehaviorNotSupported,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=CopyBehavior property is not supported if the source is tabular data source.,Source=Microsoft.DataTransfer.ClientLibrary,'.

I don't know where the problem lies, if in the datasets, the linked services or the pipeline, and can't seem to find any info at all on the error I'm seeing on the console.

azure-storage azure-data-factory azure-data-lake

2016-03-22T22:37:32.440

问题标签 [azure-data-lake]

Reference