“azure-hdinsight”的相关标签问题

0 投票

1 回答

939 浏览

azure - 如何运行 HDInsight 作业

关于 HDInsight 作业方法的几个问题。

1) 如何安排 HDInsight 作业？有没有现成的解决方案？例如，如果我的系统会不断收集大量新的输入文件，我们需要在这些文件上运行 map/reduce 作业，那么推荐的实现持续处理的方法是什么？

2）从价格上看，建议在没有作业运行的时候去掉HDInsight集群。据我了解，如果我们决定每天运行这项工作，就没有办法自动化这个过程？这里有什么建议吗？

3）有没有办法确保相同的文件不会被多次处理？你如何解决这个问题？

4）我可能弄错了，但看起来每个 hdinsight 作业都需要一个新的输出存储文件夹来存储减速器结果。合并这些结果以使报告始终适用于整个数据集的最佳做法是什么？

2013-08-29T16:04:46.517

0 投票

1 回答

389 浏览

hadoop - 您可以在不通过 WebHCat (Templeton) 的情况下向 HDInsight 提交作业吗？

我正在使用提交 MapReduce 作业的现有工具，并且希望不必更改它以通过 REST API（WebHCat / Templeton）提交作业 - 有人知道这样做的方法吗？也许是一种将 MapReduce 服务公开给我想提交作业的服务器的方法？

hadoop mapreduce azure-hdinsight

2013-09-09T18:28:09.667

0 投票

0 回答

2954 浏览

azure - HIVE 与 corr 的相关性不正确

我正在尝试使用“corr”关联 HIVE 中的两行。不幸的是，结果是完全错误的。如果我使用 PIG 函数，结果是可以的。

我已经检查了 HDInsight 和电子表格中的选项。

此外，当我在 HortonsSandbox 中运行相同的查询时，结果是正确的。HDInsight 实施中一定有问题。查询很简单：

有任何想法吗？

azure hadoop hiveql azure-hdinsight

2013-09-14T11:50:40.880

0 投票

3 回答

254 浏览

azure - HDInsight 持久 Hive 设置

每隔几天，Microsoft 就会（随机？）重新启动 Azure HDInsight 集群，并且在此过程中，对 hive-site.xml 的任何自定义更改（例如添加 JsonSerde）都会在没有任何事先警告的情况下丢失，从而导致 hive来自 Excel/PowerPivot 的查询开始中断。

您应该如何处理这种情况 - 我们是否被迫将数据存储为 CSV 文件？

azure hive azure-hdinsight

2013-09-25T12:48:19.150

0 投票

2 回答

459 浏览

azure - 我们可以将 HDInsight 服务用于 ATS 吗？

我们有一个称为 Xtrace 的日志记录系统。我们使用该系统在 SQL Azure 数据库中转储日志、异常、跟踪等。然后，运维团队将这些数据用于调试、SCOM 目的。考虑到 SQL Azure 的 150 GB 限制，我们正在考虑使用 HDInsight（大数据）服务。

如果我们将数据转储到 Azure 表存储中，HDInsight 服务是否适用于 ATS？
或者它只适用于 blob 存储，这意味着需要将日志记录创建为 blob 存储上的文件？
1. 最后一个问题。考虑到我上面解释的场景，使用 HDInsight 服务是否是一个不错的选择？

azure azure-sql-database azure-hdinsight

2013-10-01T00:23:11.270

0 投票

1 回答

272 浏览

hadoop - 安装 HDInsight 后未创建 HadoopDashboard

这是我尝试在我的开发机器中安装 HDInsight 的第二天。几个月前我已经安装了它，没有任何问题。有一天事情停止了工作，我可以看到应用程序池由于与 .\hadoop 帐户相关的问题而没有启动。

所以我卸载并再次安装。问题从那里开始。我在 IIS 中看不到 Hadoop 仪表板。我也尝试过 WebPI 的离线模式。

在离线模式下我可以看到有趣的事情是 MSSingleNodeInstaller.msi 的下载大小是 3.8 MB。当我在http://www.microsoft.com/web/webpi/4.5/toolsproductlist.xml检查 HDINSIGHT-PREVIEW 的大小时，它显示大约 30 MB。

安装后 C:\HadoopFeaturePackSetup\Packages 文件夹不包含文件 HadoopWebApi-winpkg.zip 和 HadoopDashboard-winpkg.zip

请给出一个不需要硬盘格式化或在新机器上试用的解决方案。如果需要，我也可以上传日志。

提前致谢

喜悦

hadoop installation web-platform-installer azure-hdinsight

2013-10-21T12:31:55.690

0 投票

1 回答

962 浏览

hadoop - 用于提交作业的 Hadoop HDInsight .NET SDK API

我正在使用 HDInsight .NET Hadoop API 在 asp.net 应用程序中提交 Map Reduce 作业。

使用 Microsoft.Hadoop.Mapreduce；

var hadoop = Hadoop.Connect();

var 结果 = hadoop.MapReduceJob.ExecuteJob ();

//也试过这个，但同样的例外

//var 结果 = hadoop.MapReduceJob.ExecuteJob(config);

ExecuteJob() 调用失败并在运行时引发异常。这个世界上有没有人能够成功地运行这个电话。是否可以通过添加更多输入参数或对象来自定义 Map() 函数（除了 Microsoft 在 MapperBase 类中给出的）？Mapper 和 Reducer 方法中的逻辑可以访问缓存/数据库吗？

hadoop azure-hdinsight

2013-10-23T05:41:40.070

0 投票

1 回答

449 浏览

azure - UDF 的 Hdinsight pig 默认文件夹

刚开始使用 HDInsight。

我想在 pig grunt 模式下注册一个 UDF，但要么那不起作用，要么我不知道将 jar 文件放在哪里以便 pig 加载它。

现在我所做的是将 jar 文件放入 lib 文件夹（C:\apps\dist\pig-0.9.3-SNAPSHOT\lib）和 pig 根文件夹（C:\apps\dist\pig-0.9 .3-SNAPSHOT），对我来说没有任何用处，只要继续得到这个：

响应是：

2013-10-27 09:28:53,466 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 101：本地文件 'elephant-bird-pig-3.0.0.jar' 不存在。日志文件中的详细信息：C:\apps\dist\hadoop-1.1.0-SNAPSHOT\logs\pig_1382864851131.log

请让我知道我应该在哪里以及如何注册此 UDF。

谢谢

azure hadoop apache-pig azure-hdinsight

2013-10-27T09:30:19.893

0 投票

1 回答

664 浏览

c# - hdinsight new hiveconnection 不工作

我在本地使用 hdinsight hadoop，在我尝试使用 hive 的 hdfs 上成功运行 mapreduce 作业后，不幸的是，在创建表时运行 hive 查询时出现错误。

我从另一个堆栈解决方案中获得了以下代码，因为我只在本地运行它而不使用 azure：

这总是在处理一段时间后引发异常。例外是：

System.AggregateException：发生一个或多个错误。---> System.NullReferenc eException：对象引用未设置为对象的实例。在 System.Threading.Tasks.TaskAwaiter 1.GetResult() at Microsoft.Hadoop.Hive.HiveConnection.<ExecuteHiveQuery>d__2.MoveNext() --- End of inner exception stack trace --- at System.Threading.Tasks.Task.Wait(Int32 millisecondsTimeout, CancellationTo ken cancellationToken) at System.Threading.Tasks.Task.Wait() at ConsoleApplication1.Program.CreateActorsTable() in c:\Users\Administrator\ Documents\Visual Studio 2012\Projects\ConsoleApplication1\ConsoleApplication1\Pr ogram.cs:line 90 ---> (Inner Exception #0) System.NullReferenceException: Object reference not se t to an instance of an object. at System.Threading.Tasks.TaskAwaiter1.GetResult() 在 Microsoft.Hadoop.Hive.HiveConnection.d__2.MoveNext()<---

我检查了 hadoop 的日志，其中我得到以下信息：

java.io.IOException：在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java: 762) 在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:364) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:266) 在 java.security.AccessController.doPrivileged( Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1136) at org.apache.hadoop.mapred.Child。 main(Child.java:260) 由：java.net.URISyntaxException：索引 6 处的权限中的非法字符：asv://{0}@{1}/6f8d3bc9-89a2-4e1d-9749-2805d31f05f0 at java.net .URI$Parser.fail(URI.java:2810) 在 java.net.URI$Parser。parseAuthority(URI.java:3148) 在 java.net.URI$Parser.parseHierarchical(URI.java:3059) 在 java.net.URI$Parser.parse(URI.java:3015) 在 java.net.URI.( URI.java:577) 在 org.apache.hcatalog.templeton.tool.TempletonUtils.addUserHomeDirectoryIfApplicable(TempletonUtils.java:227) 在 org.apache.hcatalog.templeton.tool.TempletonControllerJob$LaunchMapper.run(TempletonControllerJob.java:152) ... 7 更多

如果有人能指出我正确的方向，我会很高兴，因为我无法弄清楚为什么会失败。

c#hadoop hive nullreferenceexception azure-hdinsight

2013-10-28T09:32:45.070

0 投票

1 回答

6342 浏览

azure - Azure HDInsight：hadoop 集群中的头节点是什么？

我刚刚在 HDInsight 中设置了一个 Hadoop 集群并尝试开始使用 Hadoop。我已经在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到此框中。文档将此框称为头节点，并有一个额外的步骤，它讨论将数据复制到 hadoop 集群。这让我很困惑。

我有以下问题：

当我将数据从桌面复制到我登录的盒子时，它实际上没有将数据复制到hadoop吗？
第一次复制操作与第二次复制操作有何不同？
Hadoop 中的头节点是什么？

azure hadoop azure-hdinsight

2013-10-30T12:14:03.683

问题标签 [azure-hdinsight]

Reference