问题标签 [azure-hdinsight]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 如何运行 HDInsight 作业
关于 HDInsight 作业方法的几个问题。
1) 如何安排 HDInsight 作业?有没有现成的解决方案?例如,如果我的系统会不断收集大量新的输入文件,我们需要在这些文件上运行 map/reduce 作业,那么推荐的实现持续处理的方法是什么?
2)从价格上看,建议在没有作业运行的时候去掉HDInsight集群。据我了解,如果我们决定每天运行这项工作,就没有办法自动化这个过程?这里有什么建议吗?
3)有没有办法确保相同的文件不会被多次处理?你如何解决这个问题?
4)我可能弄错了,但看起来每个 hdinsight 作业都需要一个新的输出存储文件夹来存储减速器结果。合并这些结果以使报告始终适用于整个数据集的最佳做法是什么?
hadoop - 您可以在不通过 WebHCat (Templeton) 的情况下向 HDInsight 提交作业吗?
我正在使用提交 MapReduce 作业的现有工具,并且希望不必更改它以通过 REST API(WebHCat / Templeton)提交作业 - 有人知道这样做的方法吗?也许是一种将 MapReduce 服务公开给我想提交作业的服务器的方法?
azure - HIVE 与 corr 的相关性不正确
我正在尝试使用“corr”关联 HIVE 中的两行。不幸的是,结果是完全错误的。如果我使用 PIG 函数,结果是可以的。
我已经检查了 HDInsight 和电子表格中的选项。
此外,当我在 HortonsSandbox 中运行相同的查询时,结果是正确的。HDInsight 实施中一定有问题。查询很简单:
有任何想法吗?
azure - HDInsight 持久 Hive 设置
每隔几天,Microsoft 就会(随机?)重新启动 Azure HDInsight 集群,并且在此过程中,对 hive-site.xml 的任何自定义更改(例如添加 JsonSerde)都会在没有任何事先警告的情况下丢失,从而导致 hive来自 Excel/PowerPivot 的查询开始中断。
您应该如何处理这种情况 - 我们是否被迫将数据存储为 CSV 文件?
azure - 我们可以将 HDInsight 服务用于 ATS 吗?
我们有一个称为 Xtrace 的日志记录系统。我们使用该系统在 SQL Azure 数据库中转储日志、异常、跟踪等。然后,运维团队将这些数据用于调试、SCOM 目的。考虑到 SQL Azure 的 150 GB 限制,我们正在考虑使用 HDInsight(大数据)服务。
如果我们将数据转储到 Azure 表存储中,HDInsight 服务是否适用于 ATS?
或者它只适用于 blob 存储,这意味着需要将日志记录创建为 blob 存储上的文件?
- 最后一个问题。考虑到我上面解释的场景,使用 HDInsight 服务是否是一个不错的选择?
hadoop - 安装 HDInsight 后未创建 HadoopDashboard
这是我尝试在我的开发机器中安装 HDInsight 的第二天。几个月前我已经安装了它,没有任何问题。有一天事情停止了工作,我可以看到应用程序池由于与 .\hadoop 帐户相关的问题而没有启动。
所以我卸载并再次安装。问题从那里开始。我在 IIS 中看不到 Hadoop 仪表板。我也尝试过 WebPI 的离线模式。
在离线模式下我可以看到有趣的事情是 MSSingleNodeInstaller.msi 的下载大小是 3.8 MB。当我在http://www.microsoft.com/web/webpi/4.5/toolsproductlist.xml检查 HDINSIGHT-PREVIEW 的大小时,它显示大约 30 MB。
安装后 C:\HadoopFeaturePackSetup\Packages 文件夹不包含文件 HadoopWebApi-winpkg.zip 和 HadoopDashboard-winpkg.zip
请给出一个不需要硬盘格式化或在新机器上试用的解决方案。如果需要,我也可以上传日志。
提前致谢
喜悦
hadoop - 用于提交作业的 Hadoop HDInsight .NET SDK API
我正在使用 HDInsight .NET Hadoop API 在 asp.net 应用程序中提交 Map Reduce 作业。
使用 Microsoft.Hadoop.Mapreduce;
var hadoop = Hadoop.Connect();
var 结果 = hadoop.MapReduceJob.ExecuteJob ();
//也试过这个,但同样的例外
//var 结果 = hadoop.MapReduceJob.ExecuteJob(config);
ExecuteJob() 调用失败并在运行时引发异常。这个世界上有没有人能够成功地运行这个电话。是否可以通过添加更多输入参数或对象来自定义 Map() 函数(除了 Microsoft 在 MapperBase 类中给出的)?Mapper 和 Reducer 方法中的逻辑可以访问缓存/数据库吗?
azure - UDF 的 Hdinsight pig 默认文件夹
刚开始使用 HDInsight。
我想在 pig grunt 模式下注册一个 UDF,但要么那不起作用,要么我不知道将 jar 文件放在哪里以便 pig 加载它。
现在我所做的是将 jar 文件放入 lib 文件夹(C:\apps\dist\pig-0.9.3-SNAPSHOT\lib)和 pig 根文件夹(C:\apps\dist\pig-0.9 .3-SNAPSHOT),对我来说没有任何用处,只要继续得到这个:
响应是:
2013-10-27 09:28:53,466 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 101:本地文件 'elephant-bird-pig-3.0.0.jar' 不存在。日志文件中的详细信息:C:\apps\dist\hadoop-1.1.0-SNAPSHOT\logs\pig_1382864851131.log
请让我知道我应该在哪里以及如何注册此 UDF。
谢谢
c# - hdinsight new hiveconnection 不工作
我在本地使用 hdinsight hadoop,在我尝试使用 hive 的 hdfs 上成功运行 mapreduce 作业后,不幸的是,在创建表时运行 hive 查询时出现错误。
我从另一个堆栈解决方案中获得了以下代码,因为我只在本地运行它而不使用 azure:
这总是在处理一段时间后引发异常。例外是:
System.AggregateException:发生一个或多个错误。---> System.NullReferenc eException:对象引用未设置为对象的实例。在 System.Threading.Tasks.TaskAwaiter
1.GetResult() at Microsoft.Hadoop.Hive.HiveConnection.<ExecuteHiveQuery>d__2.MoveNext() --- End of inner exception stack trace --- at System.Threading.Tasks.Task.Wait(Int32 millisecondsTimeout, CancellationTo ken cancellationToken) at System.Threading.Tasks.Task.Wait() at ConsoleApplication1.Program.CreateActorsTable() in c:\Users\Administrator\ Documents\Visual Studio 2012\Projects\ConsoleApplication1\ConsoleApplication1\Pr ogram.cs:line 90 ---> (Inner Exception #0) System.NullReferenceException: Object reference not se t to an instance of an object. at System.Threading.Tasks.TaskAwaiter
1.GetResult() 在 Microsoft.Hadoop.Hive.HiveConnection.d__2.MoveNext()<---
我检查了 hadoop 的日志,其中我得到以下信息:
java.io.IOException:在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java: 762) 在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:364) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:266) 在 java.security.AccessController.doPrivileged( Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1136) at org.apache.hadoop.mapred.Child。 main(Child.java:260) 由:java.net.URISyntaxException:索引 6 处的权限中的非法字符:asv://{0}@{1}/6f8d3bc9-89a2-4e1d-9749-2805d31f05f0 at java.net .URI$Parser.fail(URI.java:2810) 在 java.net.URI$Parser。parseAuthority(URI.java:3148) 在 java.net.URI$Parser.parseHierarchical(URI.java:3059) 在 java.net.URI$Parser.parse(URI.java:3015) 在 java.net.URI.( URI.java:577) 在 org.apache.hcatalog.templeton.tool.TempletonUtils.addUserHomeDirectoryIfApplicable(TempletonUtils.java:227) 在 org.apache.hcatalog.templeton.tool.TempletonControllerJob$LaunchMapper.run(TempletonControllerJob.java:152) ... 7 更多
如果有人能指出我正确的方向,我会很高兴,因为我无法弄清楚为什么会失败。
azure - Azure HDInsight:hadoop 集群中的头节点是什么?
我刚刚在 HDInsight 中设置了一个 Hadoop 集群并尝试开始使用 Hadoop。我已经在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到此框中。文档将此框称为头节点,并有一个额外的步骤,它讨论将数据复制到 hadoop 集群。这让我很困惑。
我有以下问题:
当我将数据从桌面复制到我登录的盒子时,它实际上没有将数据复制到hadoop吗?
第一次复制操作与第二次复制操作有何不同?
Hadoop 中的头节点是什么?