问题标签 [azure-hdinsight]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
282 浏览

bigdata - HDInsight - 使用超过 1 个存储?

是否可以将多个帐户存储关联到同一个 HDInsight 群集?我怎样才能做到这一点?

如果不可能,如何上传超过 200TB 的信息并使用 HDInsight 进行处理?

谢谢。

0 投票
4 回答
18108 浏览

c# - 如何使用 C# 连接到 HBase / Hadoop 数据库

最近,Exploring Microsoft HDInsight Hadoop for Windows。但是不知道从哪里开始,开始使用 apache hadoop with c# / asp.net mvc。

我知道http://hadoopsdk.codeplex.com/是最好的可用资源,但找不到从头开始的文档?比如创建集群、数据库,然后将其连接到 C# 应用程序。

0 投票
2 回答
290 浏览

java - 这个 Java for HDInsight Hadoop 有什么问题?

我试图找出为什么当我尝试在 hadoop 上运行下面的 Java 时它不起作用。

错误是:

c:\hadoop-training\tutorial02-jobtracker>hadoop jar PageStat.jar PageStat jobtracker/input/visit_5000000.txt jobtracker/output 13/07/29 11:24:50 INFO input.FileInputFormat:要处理的总输入路径:1 log4j:ERROR 无法将 [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log] 重命名为 [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log.2013-07 -26]。29 年 7 月 13 日 11:24:51 信息 util.NativeCodeLoader:加载了本机 hadoop 库 13/07/29 11:24:51 警告 snappy.LoadSnappy:未加载 Snappy 本机库 29 年 7 月 11:24: 54 信息 mapred.JobClient:正在运行的作业:job_201307261340_0001 13/07/29 11:24:55 信息 mapred.JobClient:地图 0% 减少 0% 13/07/29 11:25:24 信息 mapred.JobClient:地图 1% 减少0% 13/07/29 11:25:27 信息 mapred.JobClient:映射 6% 减少 0% 13/07/29 11:25:30 信息 mapred.JobClient:

13/07/29 11:26:56 INFO mapred.JobClient:地图 100% 减少 0% 13/07/29 11:27:05 INFO mapred.JobClient:地图 100% 减少 8% 13/07/29 11:27 :08 INFO mapred.JobClient:映射 100% 减少 33% 13/07/29 11:27:10 INFO mapred.JobClient:任务 ID:尝试_201307261340_0001_r_0 00000_1,状态:在 PageStat$PageStatReducer.reduce(PageStat) 处失败 java.lang.NullPointerException .java:120) 在 PageStat$PageStatReducer.reduce(PageStat.java:96) 在 org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) 在 org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:271) 在 java.security。 javax.security 中的 AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) at org.apache.hadoop.mapred.Child.main(Child.java:265 )

13/07/29 11:27:11 INFO mapred.JobClient:地图 100% 减少 0% 13/07/29 11:27:20 INFO mapred.JobClient:地图 100% 减少 8% 13/07/29 11:27 :23 INFO mapred.JobClient:映射 100% 减少 25% 13/07/29 11:27:25 INFO mapred.JobClient:任务 ID:尝试_201307261340_0001_r_0 00000_2,状态:在 PageStat$PageStatReducer.reduce(PageStat) 处失败 java.lang.NullPointerException .java:120) 在 PageStat$PageStatReducer.reduce(PageStat.java:96) 在 org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) 在 org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:271) 在 java.security。 javax.security 中的 AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) at org.apache.hadoop.mapred.Child.main(Child.java:265 )

13/07/29 11:27:26 INFO mapred.JobClient: 地图 100% 减少 0% 13/07/29 11:27:38 INFO mapred.JobClient: 地图 100% 减少 25% 13/07/29 11:27 :41 INFO mapred.JobClient:映射 100% 减少 0% 13/07/29 11:27:43 INFO mapred.JobClient:作业完成:job_201307261340_0001 13/07/29 11:27:43 INFO mapred.JobClient:计数器:24 29 年 7 月 13 日 11:27:43 信息 mapred.JobClient:作业计数器 13/07/29 11:27:43 信息 mapred.JobClient:启动减少任务 = 4 13/07/29 11:27:43 信息映射。 JobClient:SLOTS_MILLIS_MAPS=179086 13/07/29 11:27:43 INFO mapred.JobClient:在保留槽 (ms)=0 13/07/29 11:27:43 INFO mapred.JobClient 后所有减少等待所花费的总时间:
保留槽后等待的所有地图花费的总时间 (ms)=0 13/07/29 11:27:43 INFO mapred.JobClient: Launched map tasks=4 13/07/29 11:27:43 INFO mapred.JobClient :数据本地映射任务=4 13/07/29 11:27:43 信息 mapred.JobClient:失败的减少任务=1 13/07/29 11:27:43 信息 mapred.JobClient:
SLOTS_MILLIS_REDUCES=106513 13/07/ 29 11:27:43 信息 mapred.JobClient:
FileSystemCounters 13/07/29 11:27:43 信息 mapred.JobClient:
FILE_BYTES_READ=179504086 13/07/29 11:27:43 信息 mapred.JobClient:
HDFS_BYTES_READ=254931072 13/ 07/29 11:27:43 INFO mapred.JobClient:
FILE_BYTES_WRITTEN=359099432 13/07/29 11:27:43 INFO mapred.JobClient:文件输入格式计数器 13/07/29 11:27:43 INFO mapred.JobClient:
字节读取 = 254930544 13/07/29 11:27:43 信息 mapred.JobClient:
Map-Reduce 框架 13/07/29 11:27:43 INFO mapred.JobClient:映射输出物化字节=17949 9502 13/07/29 11:27:43 INFO mapred.JobClient:组合输出记录=0 13/07/ 29 11:27:43 INFO mapred.JobClient:映射输入记录=5000000 13/07/29 11:27:43 INFO mapred.JobClient:物理内存(字节)快照=85 1607552 13/07/29 11:27:43 INFO mapred.JobClient:溢出记录 = 10000000 13/07/29 11:27:43 INFO mapred.JobClient:映射输出字节 = 169499478 13/07/29 11:27:43 INFO mapred.JobClient:CPU 时间花费(毫秒) =81308 13/07/29 11:27:43 INFO mapred.JobClient:总提交堆使用量(字节)= 746323968 13/07/29 11:27:43 INFO mapred.JobClient:虚拟内存(字节)快照=988 401664 13/07/29 11:27:43 INFO mapred.JobClient:组合输入记录 = 0 13/07/29 11:27:43 INFO mapred。JobClient: 映射输出记录=5000000 13/07/29 11:27:43 INFO mapred.JobClient:
SPLIT_RAW_BYTES=528

谢谢!!!

0 投票
1 回答
3357 浏览

c# - 如何将 Hive 连接到 asp.net 项目

嗨,我对 Hadoop 很陌生。

我已将 Microsoft HDInsight 安装到我的本地系统。现在我想连接到 hive 和 HBase 但对于 HIVE 连接我必须指定连接字符串、端口、用户名、密码。

但我无法弄清楚我将如何获得这个价值。我曾尝试使用 localhost 和 8085 作为端口,但这不起作用。我也通过提供本地主机 IP 和我的系统 IP 来完成它。

请帮助解决这个问题,让我知道我应该如何进行 HBase 连接

0 投票
1 回答
4463 浏览

hadoop - 错误安全。用户组信息:PriviledgedActionException

我正在尝试在 HDInsights 上学习 Hadoop 版本 1.1.0。我按照分步说明在 Hadoop 命令行上运行命令。我首先编译了java代码,然后创建了一个jar文件,然后执行了map reduce命令。但是当我运行 mapreduce 命令时,它给了我下面的错误。有人可以帮助我理解错误的含义以及我需要做些什么来纠正它吗?

感谢任何帮助!谢谢,拉米亚

0 投票
2 回答
339 浏览

c# - 是否可以在 Azure 上远程运行流式地图缩减作业?

如何使用 C# 在 Azure 集群上远程运行 Streaming Map Reduce 作业?我的映射器和化简器是用 Java 或 C++ 编写的。.Net C# SDK 的作业执行方法将 JobType 作为输入,因此我无法指定基于 C++ 和 Java 的映射器/缩减器的类型。

还有另一个类StreamingProcessExecutor似乎适合我的情况,但没有输入我的凭据,所以我认为不可能将它用于远程执行。

任何人都知道如何远程和以编程方式执行流式地图减少作业?

0 投票
1 回答
518 浏览

python - Hive/Python Map-Reduce 的 Azure HDInsights 问题

使用 Azure HDInsights 和 Hive/Python 运行一个非常简单的测试示例。Hive 似乎没有加载 Python 脚本。

  • Hive 包含一个小型测试表,其中包含一个名为“dob”的字段,我正在尝试通过 map-reduce 使用 Python 脚本对其进行转换。
  • Python 脚本为空白,位于 asv:///mapper_test.py。我将脚本设为空白,因为我想首先隔离 Hive 访问此脚本的问题。

蜂巢代码:

错误:

0 投票
2 回答
1427 浏览

c# - Azure + HDInsight 的本地仿真

任务是在 Azure 云中实现ETL项目的T部分(转换) 。我相信 HDInsight 是使用它的正确服务,但不确定。请批准或反对此选择。

我对这个领域很陌生,如果有人能在这里指出正确的方向,我将不胜感激。

我希望能够开发转换服务(作业)并使用Azure 存储/计算模拟器Visual Studio 2012(理想情况下在 C# 中)在本地对其进行测试。我很确定HDInsight如何适合这张图片(如果有的话)。转换作业将从 blob 存储中读取文本文件并将数据生成(映射缩减)到 Azure 表存储中。

0 投票
1 回答
517 浏览

c# - HDInsight 是否仅适用于 ASV(blob 存储)?

我想以我可以轻松报告的格式将 map reducer 生成的数据保存在 hdinsight 中。理想的表结构(Azure 表存储)。经过一些研究,看起来 HDInsight 服务只能与 Azure Storage Vault (ASV) 一起使用(读取和写入)。那是对的吗?

我更愿意在 C# 中实现 hdinsight 映射器/减速器。

我对 hive 或 pig 不太了解,想知道是否有一种功能可以将 reducer 的结果保留在 ASV 以外的外部(天蓝色表)数据存储中?

0 投票
1 回答
814 浏览

c# - 如何将 HDInsight 的输入/输出路径设置为指向本地存储模拟器中的 Azure Storage Vault (ASV)?

我正在尝试为 hdinsight 创建一个简单的 map/reducer 作业,但我无法通过ASV://将本地 hdinsight hadoop 集群中的作业连接到本地 azure 存储模拟器

示例代码如下:

或者

其中testcontainer是本地模拟器的 blob 存储中的现有容器。运行此代码时,我得到一个StreamingException “进程失败('流式作业失败!')”

并在控制台输出中看到以下错误:

有什么提示吗?