问题标签 [azure-hdinsight]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bigdata - HDInsight - 使用超过 1 个存储?
是否可以将多个帐户存储关联到同一个 HDInsight 群集?我怎样才能做到这一点?
如果不可能,如何上传超过 200TB 的信息并使用 HDInsight 进行处理?
谢谢。
c# - 如何使用 C# 连接到 HBase / Hadoop 数据库
最近,Exploring Microsoft HDInsight Hadoop for Windows。但是不知道从哪里开始,开始使用 apache hadoop with c# / asp.net mvc。
我知道http://hadoopsdk.codeplex.com/是最好的可用资源,但找不到从头开始的文档?比如创建集群、数据库,然后将其连接到 C# 应用程序。
java - 这个 Java for HDInsight Hadoop 有什么问题?
我试图找出为什么当我尝试在 hadoop 上运行下面的 Java 时它不起作用。
错误是:
c:\hadoop-training\tutorial02-jobtracker>hadoop jar PageStat.jar PageStat jobtracker/input/visit_5000000.txt jobtracker/output 13/07/29 11:24:50 INFO input.FileInputFormat:要处理的总输入路径:1 log4j:ERROR 无法将 [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log] 重命名为 [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log.2013-07 -26]。29 年 7 月 13 日 11:24:51 信息 util.NativeCodeLoader:加载了本机 hadoop 库 13/07/29 11:24:51 警告 snappy.LoadSnappy:未加载 Snappy 本机库 29 年 7 月 11:24: 54 信息 mapred.JobClient:正在运行的作业:job_201307261340_0001 13/07/29 11:24:55 信息 mapred.JobClient:地图 0% 减少 0% 13/07/29 11:25:24 信息 mapred.JobClient:地图 1% 减少0% 13/07/29 11:25:27 信息 mapred.JobClient:映射 6% 减少 0% 13/07/29 11:25:30 信息 mapred.JobClient:
13/07/29 11:26:56 INFO mapred.JobClient:地图 100% 减少 0% 13/07/29 11:27:05 INFO mapred.JobClient:地图 100% 减少 8% 13/07/29 11:27 :08 INFO mapred.JobClient:映射 100% 减少 33% 13/07/29 11:27:10 INFO mapred.JobClient:任务 ID:尝试_201307261340_0001_r_0 00000_1,状态:在 PageStat$PageStatReducer.reduce(PageStat) 处失败 java.lang.NullPointerException .java:120) 在 PageStat$PageStatReducer.reduce(PageStat.java:96) 在 org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) 在 org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:271) 在 java.security。 javax.security 中的 AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) at org.apache.hadoop.mapred.Child.main(Child.java:265 )
13/07/29 11:27:11 INFO mapred.JobClient:地图 100% 减少 0% 13/07/29 11:27:20 INFO mapred.JobClient:地图 100% 减少 8% 13/07/29 11:27 :23 INFO mapred.JobClient:映射 100% 减少 25% 13/07/29 11:27:25 INFO mapred.JobClient:任务 ID:尝试_201307261340_0001_r_0 00000_2,状态:在 PageStat$PageStatReducer.reduce(PageStat) 处失败 java.lang.NullPointerException .java:120) 在 PageStat$PageStatReducer.reduce(PageStat.java:96) 在 org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) 在 org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:271) 在 java.security。 javax.security 中的 AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) at org.apache.hadoop.mapred.Child.main(Child.java:265 )
13/07/29 11:27:26 INFO mapred.JobClient: 地图 100% 减少 0% 13/07/29 11:27:38 INFO mapred.JobClient: 地图 100% 减少 25% 13/07/29 11:27 :41 INFO mapred.JobClient:映射 100% 减少 0% 13/07/29 11:27:43 INFO mapred.JobClient:作业完成:job_201307261340_0001 13/07/29 11:27:43 INFO mapred.JobClient:计数器:24 29 年 7 月 13 日 11:27:43 信息 mapred.JobClient:作业计数器 13/07/29 11:27:43 信息 mapred.JobClient:启动减少任务 = 4 13/07/29 11:27:43 信息映射。 JobClient:SLOTS_MILLIS_MAPS=179086 13/07/29 11:27:43 INFO mapred.JobClient:在保留槽 (ms)=0 13/07/29 11:27:43 INFO mapred.JobClient 后所有减少等待所花费的总时间:
保留槽后等待的所有地图花费的总时间 (ms)=0 13/07/29 11:27:43 INFO mapred.JobClient: Launched map tasks=4 13/07/29 11:27:43 INFO mapred.JobClient :数据本地映射任务=4 13/07/29 11:27:43 信息 mapred.JobClient:失败的减少任务=1 13/07/29 11:27:43 信息 mapred.JobClient:
SLOTS_MILLIS_REDUCES=106513 13/07/ 29 11:27:43 信息 mapred.JobClient:
FileSystemCounters 13/07/29 11:27:43 信息 mapred.JobClient:
FILE_BYTES_READ=179504086 13/07/29 11:27:43 信息 mapred.JobClient:
HDFS_BYTES_READ=254931072 13/ 07/29 11:27:43 INFO mapred.JobClient:
FILE_BYTES_WRITTEN=359099432 13/07/29 11:27:43 INFO mapred.JobClient:文件输入格式计数器 13/07/29 11:27:43 INFO mapred.JobClient:
字节读取 = 254930544 13/07/29 11:27:43 信息 mapred.JobClient:
Map-Reduce 框架 13/07/29 11:27:43 INFO mapred.JobClient:映射输出物化字节=17949 9502 13/07/29 11:27:43 INFO mapred.JobClient:组合输出记录=0 13/07/ 29 11:27:43 INFO mapred.JobClient:映射输入记录=5000000 13/07/29 11:27:43 INFO mapred.JobClient:物理内存(字节)快照=85 1607552 13/07/29 11:27:43 INFO mapred.JobClient:溢出记录 = 10000000 13/07/29 11:27:43 INFO mapred.JobClient:映射输出字节 = 169499478 13/07/29 11:27:43 INFO mapred.JobClient:CPU 时间花费(毫秒) =81308 13/07/29 11:27:43 INFO mapred.JobClient:总提交堆使用量(字节)= 746323968 13/07/29 11:27:43 INFO mapred.JobClient:虚拟内存(字节)快照=988 401664 13/07/29 11:27:43 INFO mapred.JobClient:组合输入记录 = 0 13/07/29 11:27:43 INFO mapred。JobClient: 映射输出记录=5000000 13/07/29 11:27:43 INFO mapred.JobClient:
SPLIT_RAW_BYTES=528
谢谢!!!
c# - 如何将 Hive 连接到 asp.net 项目
嗨,我对 Hadoop 很陌生。
我已将 Microsoft HDInsight 安装到我的本地系统。现在我想连接到 hive 和 HBase 但对于 HIVE 连接我必须指定连接字符串、端口、用户名、密码。
但我无法弄清楚我将如何获得这个价值。我曾尝试使用 localhost 和 8085 作为端口,但这不起作用。我也通过提供本地主机 IP 和我的系统 IP 来完成它。
请帮助解决这个问题,让我知道我应该如何进行 HBase 连接
hadoop - 错误安全。用户组信息:PriviledgedActionException
我正在尝试在 HDInsights 上学习 Hadoop 版本 1.1.0。我按照分步说明在 Hadoop 命令行上运行命令。我首先编译了java代码,然后创建了一个jar文件,然后执行了map reduce命令。但是当我运行 mapreduce 命令时,它给了我下面的错误。有人可以帮助我理解错误的含义以及我需要做些什么来纠正它吗?
感谢任何帮助!谢谢,拉米亚
c# - 是否可以在 Azure 上远程运行流式地图缩减作业?
如何使用 C# 在 Azure 集群上远程运行 Streaming Map Reduce 作业?我的映射器和化简器是用 Java 或 C++ 编写的。.Net C# SDK 的作业执行方法将 JobType 作为输入,因此我无法指定基于 C++ 和 Java 的映射器/缩减器的类型。
还有另一个类StreamingProcessExecutor
似乎适合我的情况,但没有输入我的凭据,所以我认为不可能将它用于远程执行。
任何人都知道如何远程和以编程方式执行流式地图减少作业?
python - Hive/Python Map-Reduce 的 Azure HDInsights 问题
使用 Azure HDInsights 和 Hive/Python 运行一个非常简单的测试示例。Hive 似乎没有加载 Python 脚本。
- Hive 包含一个小型测试表,其中包含一个名为“dob”的字段,我正在尝试通过 map-reduce 使用 Python 脚本对其进行转换。
- Python 脚本为空白,位于 asv:///mapper_test.py。我将脚本设为空白,因为我想首先隔离 Hive 访问此脚本的问题。
蜂巢代码:
错误:
c# - Azure + HDInsight 的本地仿真
任务是在 Azure 云中实现ETL项目的T部分(转换) 。我相信 HDInsight 是使用它的正确服务,但不确定。请批准或反对此选择。
我对这个领域很陌生,如果有人能在这里指出正确的方向,我将不胜感激。
我希望能够开发转换服务(作业)并使用Azure 存储/计算模拟器和Visual Studio 2012(理想情况下在 C# 中)在本地对其进行测试。我很确定HDInsight如何适合这张图片(如果有的话)。转换作业将从 blob 存储中读取文本文件并将数据生成(映射缩减)到 Azure 表存储中。
c# - HDInsight 是否仅适用于 ASV(blob 存储)?
我想以我可以轻松报告的格式将 map reducer 生成的数据保存在 hdinsight 中。理想的表结构(Azure 表存储)。经过一些研究,看起来 HDInsight 服务只能与 Azure Storage Vault (ASV) 一起使用(读取和写入)。那是对的吗?
我更愿意在 C# 中实现 hdinsight 映射器/减速器。
我对 hive 或 pig 不太了解,想知道是否有一种功能可以将 reducer 的结果保留在 ASV 以外的外部(天蓝色表)数据存储中?
c# - 如何将 HDInsight 的输入/输出路径设置为指向本地存储模拟器中的 Azure Storage Vault (ASV)?
我正在尝试为 hdinsight 创建一个简单的 map/reducer 作业,但我无法通过ASV://将本地 hdinsight hadoop 集群中的作业连接到本地 azure 存储模拟器
示例代码如下:
或者
其中testcontainer是本地模拟器的 blob 存储中的现有容器。运行此代码时,我得到一个StreamingException “进程失败('流式作业失败!')”
并在控制台输出中看到以下错误:
有什么提示吗?