“azure-hdinsight”的相关标签问题

0 投票

2 回答

282 浏览

bigdata - HDInsight - 使用超过 1 个存储？

是否可以将多个帐户存储关联到同一个 HDInsight 群集？我怎样才能做到这一点？

如果不可能，如何上传超过 200TB 的信息并使用 HDInsight 进行处理？

谢谢。

bigdata azure-hdinsight

2013-07-24T23:45:30.700

0 投票

4 回答

18108 浏览

c# - 如何使用 C# 连接到 HBase / Hadoop 数据库

最近，Exploring Microsoft HDInsight Hadoop for Windows。但是不知道从哪里开始，开始使用 apache hadoop with c# / asp.net mvc。

我知道http://hadoopsdk.codeplex.com/是最好的可用资源，但找不到从头开始的文档？比如创建集群、数据库，然后将其连接到 C# 应用程序。

c#hadoop hbase hive azure-hdinsight

2013-07-25T19:03:00.327

0 投票

2 回答

290 浏览

java - 这个 Java for HDInsight Hadoop 有什么问题？

我试图找出为什么当我尝试在 hadoop 上运行下面的 Java 时它不起作用。

错误是：

c:\hadoop-training\tutorial02-jobtracker>hadoop jar PageStat.jar PageStat jobtracker/input/visit_5000000.txt jobtracker/output 13/07/29 11:24:50 INFO input.FileInputFormat：要处理的总输入路径：1 log4j:ERROR 无法将 [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log] 重命名为 [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log.2013-07 -26]。29 年 7 月 13 日 11:24:51 信息 util.NativeCodeLoader：加载了本机 hadoop 库 13/07/29 11:24:51 警告 snappy.LoadSnappy：未加载 Snappy 本机库 29 年 7 月 11:24： 54 信息 mapred.JobClient：正在运行的作业：job_201307261340_0001 13/07/29 11:24:55 信息 mapred.JobClient：地图 0% 减少 0% 13/07/29 11:25:24 信息 mapred.JobClient：地图 1% 减少0% 13/07/29 11:25:27 信息 mapred.JobClient：映射 6% 减少 0% 13/07/29 11:25:30 信息 mapred.JobClient：

13/07/29 11:26:56 INFO mapred.JobClient：地图 100% 减少 0% 13/07/29 11:27:05 INFO mapred.JobClient：地图 100% 减少 8% 13/07/29 11:27 ：08 INFO mapred.JobClient：映射 100% 减少 33% 13/07/29 11:27:10 INFO mapred.JobClient：任务 ID：尝试_201307261340_0001_r_0 00000_1，状态：在 PageStat$PageStatReducer.reduce(PageStat) 处失败 java.lang.NullPointerException .java:120) 在 PageStat$PageStatReducer.reduce(PageStat.java:96) 在 org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) 在 org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:271) 在 java.security。 javax.security 中的 AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) at org.apache.hadoop.mapred.Child.main(Child.java:265 )

13/07/29 11:27:11 INFO mapred.JobClient：地图 100% 减少 0% 13/07/29 11:27:20 INFO mapred.JobClient：地图 100% 减少 8% 13/07/29 11:27 ：23 INFO mapred.JobClient：映射 100% 减少 25% 13/07/29 11:27:25 INFO mapred.JobClient：任务 ID：尝试_201307261340_0001_r_0 00000_2，状态：在 PageStat$PageStatReducer.reduce(PageStat) 处失败 java.lang.NullPointerException .java:120) 在 PageStat$PageStatReducer.reduce(PageStat.java:96) 在 org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) 在 org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:271) 在 java.security。 javax.security 中的 AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) at org.apache.hadoop.mapred.Child.main(Child.java:265 )

13/07/29 11:27:26 INFO mapred.JobClient: 地图 100% 减少 0% 13/07/29 11:27:38 INFO mapred.JobClient: 地图 100% 减少 25% 13/07/29 11:27 ：41 INFO mapred.JobClient：映射 100% 减少 0% 13/07/29 11:27:43 INFO mapred.JobClient：作业完成：job_201307261340_0001 13/07/29 11:27:43 INFO mapred.JobClient：计数器：24 29 年 7 月 13 日 11:27:43 信息 mapred.JobClient：作业计数器 13/07/29 11:27:43 信息 mapred.JobClient：启动减少任务 = 4 13/07/29 11:27:43 信息映射。 JobClient：SLOTS_MILLIS_MAPS=179086 13/07/29 11:27:43 INFO mapred.JobClient：在保留槽 (ms)=0 13/07/29 11:27:43 INFO mapred.JobClient 后所有减少等待所花费的总时间：
保留槽后等待的所有地图花费的总时间 (ms)=0 13/07/29 11:27:43 INFO mapred.JobClient: Launched map tasks=4 13/07/29 11:27:43 INFO mapred.JobClient ：数据本地映射任务=4 13/07/29 11:27:43 信息 mapred.JobClient：失败的减少任务=1 13/07/29 11:27:43 信息 mapred.JobClient：
SLOTS_MILLIS_REDUCES=106513 13/07/ 29 11:27:43 信息 mapred.JobClient：
FileSystemCounters 13/07/29 11:27:43 信息 mapred.JobClient：
FILE_BYTES_READ=179504086 13/07/29 11:27:43 信息 mapred.JobClient：
HDFS_BYTES_READ=254931072 13/ 07/29 11:27:43 INFO mapred.JobClient：
FILE_BYTES_WRITTEN=359099432 13/07/29 11:27:43 INFO mapred.JobClient：文件输入格式计数器 13/07/29 11:27:43 INFO mapred.JobClient：
字节读取 = 254930544 13/07/29 11:27:43 信息 mapred.JobClient:
Map-Reduce 框架 13/07/29 11:27:43 INFO mapred.JobClient：映射输出物化字节=17949 9502 13/07/29 11:27:43 INFO mapred.JobClient：组合输出记录=0 13/07/ 29 11:27:43 INFO mapred.JobClient：映射输入记录=5000000 13/07/29 11:27:43 INFO mapred.JobClient：物理内存（字节）快照=85 1607552 13/07/29 11:27:43 INFO mapred.JobClient：溢出记录 = 10000000 13/07/29 11:27:43 INFO mapred.JobClient：映射输出字节 = 169499478 13/07/29 11:27:43 INFO mapred.JobClient：CPU 时间花费（毫秒） =81308 13/07/29 11:27:43 INFO mapred.JobClient：总提交堆使用量（字节）= 746323968 13/07/29 11:27:43 INFO mapred.JobClient：虚拟内存（字节）快照=988 401664 13/07/29 11:27:43 INFO mapred.JobClient：组合输入记录 = 0 13/07/29 11:27:43 INFO mapred。JobClient: 映射输出记录=5000000 13/07/29 11:27:43 INFO mapred.JobClient:
SPLIT_RAW_BYTES=528

谢谢！！！

java hadoop azure-hdinsight

2013-07-30T18:33:11.847

0 投票

1 回答

3357 浏览

c# - 如何将 Hive 连接到 asp.net 项目

嗨，我对 Hadoop 很陌生。

我已将 Microsoft HDInsight 安装到我的本地系统。现在我想连接到 hive 和 HBase 但对于 HIVE 连接我必须指定连接字符串、端口、用户名、密码。

但我无法弄清楚我将如何获得这个价值。我曾尝试使用 localhost 和 8085 作为端口，但这不起作用。我也通过提供本地主机 IP 和我的系统 IP 来完成它。

请帮助解决这个问题，让我知道我应该如何进行 HBase 连接

c#hadoop hbase hive azure-hdinsight

2013-08-07T12:38:07.670

0 投票

1 回答

4463 浏览

hadoop - 错误安全。用户组信息：PriviledgedActionException

我正在尝试在 HDInsights 上学习 Hadoop 版本 1.1.0。我按照分步说明在 Hadoop 命令行上运行命令。我首先编译了java代码，然后创建了一个jar文件，然后执行了map reduce命令。但是当我运行 mapreduce 命令时，它给了我下面的错误。有人可以帮助我理解错误的含义以及我需要做些什么来纠正它吗？

感谢任何帮助！谢谢，拉米亚

hadoop mapreduce azure-hdinsight

2013-08-12T22:19:45.793

0 投票

2 回答

339 浏览

c# - 是否可以在 Azure 上远程运行流式地图缩减作业？

如何使用 C# 在 Azure 集群上远程运行 Streaming Map Reduce 作业？我的映射器和化简器是用 Java 或 C++ 编写的。.Net C# SDK 的作业执行方法将 JobType 作为输入，因此我无法指定基于 C++ 和 Java 的映射器/缩减器的类型。

还有另一个类StreamingProcessExecutor似乎适合我的情况，但没有输入我的凭据，所以我认为不可能将它用于远程执行。

任何人都知道如何远程和以编程方式执行流式地图减少作业？

c#azure hadoop mapreduce azure-hdinsight

2013-08-19T07:36:56.943

0 投票

1 回答

518 浏览

python - Hive/Python Map-Reduce 的 Azure HDInsights 问题

使用 Azure HDInsights 和 Hive/Python 运行一个非常简单的测试示例。Hive 似乎没有加载 Python 脚本。

Hive 包含一个小型测试表，其中包含一个名为“dob”的字段，我正在尝试通过 map-reduce 使用 Python 脚本对其进行转换。
Python 脚本为空白，位于 asv:///mapper_test.py。我将脚本设为空白，因为我想首先隔离 Hive 访问此脚本的问题。

蜂巢代码：

错误：

python azure hive azure-hdinsight

2013-08-20T21:37:53.713

0 投票

2 回答

1427 浏览

c# - Azure + HDInsight 的本地仿真

任务是在 Azure 云中实现ETL项目的T部分（转换）。我相信 HDInsight 是使用它的正确服务，但不确定。请批准或反对此选择。

我对这个领域很陌生，如果有人能在这里指出正确的方向，我将不胜感激。

我希望能够开发转换服务（作业）并使用Azure 存储/计算模拟器和Visual Studio 2012（理想情况下在 C# 中）在本地对其进行测试。我很确定HDInsight如何适合这张图片（如果有的话）。转换作业将从 blob 存储中读取文本文件并将数据生成（映射缩减）到 Azure 表存储中。

c#azure etl azure-hdinsight

2013-08-22T18:32:01.933

0 投票

1 回答

517 浏览

c# - HDInsight 是否仅适用于 ASV（blob 存储）？

我想以我可以轻松报告的格式将 map reducer 生成的数据保存在 hdinsight 中。理想的表结构（Azure 表存储）。经过一些研究，看起来 HDInsight 服务只能与 Azure Storage Vault (ASV) 一起使用（读取和写入）。那是对的吗？

我更愿意在 C# 中实现 hdinsight 映射器/减速器。

我对 hive 或 pig 不太了解，想知道是否有一种功能可以将 reducer 的结果保留在 ASV 以外的外部（天蓝色表）数据存储中？

c#azure mapreduce azure-hdinsight

2013-08-23T21:49:16.310

0 投票

1 回答

814 浏览

c# - 如何将 HDInsight 的输入/输出路径设置为指向本地存储模拟器中的 Azure Storage Vault (ASV)？

我正在尝试为 hdinsight 创建一个简单的 map/reducer 作业，但我无法通过ASV://将本地 hdinsight hadoop 集群中的作业连接到本地 azure 存储模拟器

示例代码如下：

或者

其中testcontainer是本地模拟器的 blob 存储中的现有容器。运行此代码时，我得到一个StreamingException “进程失败（'流式作业失败！'）”

并在控制台输出中看到以下错误：

有什么提示吗？

c#azure azure-hdinsight azure-storage-emulator

2013-08-26T19:37:15.517

问题标签 [azure-hdinsight]

Reference