“cloudera”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

11094 浏览

hadoop - 无法使用 start-dfs.sh 启动守护进程

我们正在使用来自 cloudera 的 cdh4-0.0 发行版。我们无法使用以下命令启动守护程序。

user899876

2012-07-18T11:45:23.393

0 投票

5 回答

8799 浏览

solr - 搜索存储在 Hadoop 中的文档 - 使用哪个工具？

我迷失在：Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI ......

当您阅读有关该工具的信息时，您通常可以确定将提及其他工具中的每一个。

我不希望你向我解释每一个工具——当然不会。如果您可以帮助我针对我的特定场景缩小此设置范围，那就太好了。到目前为止，我不确定以上哪一个适合，而且看起来（一如既往）有不止一种方法可以做要做的事情。

场景是：500GB - ~20 TB 的文档存储在 Hadoop 中。多种格式的文本文档：email、doc、pdf、odt。有关存储在 SQL db 中的文档的元数据（发件人、收件人、日期、部门等）。文档的主要来源将是 ExchangeServer（电子邮件和附件），但不仅如此。现在开始搜索：用户需要能够对这些文档进行复杂的全文搜索。基本上，他会看到一些搜索配置面板（java 桌面应用程序，而不是 web 应用程序） - 他将设置日期范围、文档类型、发件人/收件人、关键字等 - 触发搜索并获取文档的结果列表（以及每个文档信息为什么包含在搜索结果中，即在文档中找到了哪些关键字）。

我应该考虑哪些工具，哪些不应该考虑？关键是用最少的“胶水”代码开发这样的解决方案。我精通 SQLdbs，但对 Apache 和相关技术很不适应。

基本工作流程如下所示：ExchangeServer/其他来源 -> 从 doc/pdf/... 转换 -> 重复数据删除 -> Hadoop + SQL（元数据） -> 构建/更新索引 <- 搜索文档（并快速完成) -> 显示搜索结果

谢谢！

solr hadoop lucene cloudera carrot2

2012-07-18T18:53:09.460

0 投票

3 回答

3175 浏览

java - Amazon (EMR) 使用哪个 Hadoop 版本？

我想创建一个 Hadoop 作业并在 EC2 Map Reduce 上运行它。我还想在上传到 EC2 之前在本地运行该作业。

我应该在本地拥有哪个版本/类型的 Hadoop？我可以使用 Cloudera 虚拟机吗？亚马逊使用哪个 Hadoop 版本？

java hadoop amazon-ec2 cloudera amazon-emr

2012-07-23T17:44:48.437

0 投票

0 回答

1119 浏览

hadoop - HBase：运行 PerformanceEvaluation 时发生 PrivilegedActionException

我在 Hadoop 集群中安装了 HBase（版本 0.90.6-cdh3u4）。我想测试性能。但是我跑了

从运行 HMaster 的机器上，性能评估向 Hadoop 提交一个 map-reduce 作业。但这项工作因以下消息而失败：

2012-07-26 12:45:17,733 错误 org.apache.hadoop.security.UserGroupInformation：PriviledgedActionException as：root (auth:SIMPLE) 原因：org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException：失败 22193 操作：服务器问题：test-8:60020, 2012-07-26 12:45:17,734 WARN org.apache.hadoop.mapred.Child: Error running child org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 22193 actions: 服务器问题：test-8:60020，在 org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.processBatchOfPuts(HConnectionManager. java:1499) 在 org.apache.hadoop.hbase 的 org.apache.hadoop.hbase.client.HTable.flushCommits(HTable.java:859)。PerformanceEvaluation$Test.testTakedown(PerformanceEvaluation.java:754) at org.apache.hadoop.hbase.PerformanceEvaluation$Test.test(PerformanceEvaluation.java:771) at org.apache.hadoop.hbase.PerformanceEvaluation.runOneClient(PerformanceEvaluation.java: 1098）在 org.apache.hadoop.hbase.PerformanceEvaluation$EvaluationMapTask.map(PerformanceEvaluation.java:400) 在 org.apache.hadoop.map(PerformanceEvaluation.java:447) .mapreduce.Mapper.run(Mapper.java:144) 在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:647) 在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:323 ) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:270) 在 java.security.AccessController.doPrivileged(Native Method) 在 javax.security.auth.Subject.doAs(Subject.java:396) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1177) 在 org.apache.hadoop.mapred.Child.main(Child.java:264) 2012-07-26 12:45 ：17,740 INFO org.apache.hadoop.mapred.Task：为任务运行清理

然后我尝试了其他一些 map-reduce 作业，它们都可以成功完成。所以我认为 Hadoop 本身运行良好。

此外，Hbase Shell 中的操作也可以。我可以创建表，放置一些数据......这个异常只在运行 PerformanceEvaluation 时发生。

谁能知道如何解决它？

hadoop hbase cloudera

2012-07-26T07:58:36.280

0 投票

1 回答

1548 浏览

hadoop - 如何将 mac 连接到 hadoop/hdfs 集群

我有在集群中运行的 CDH，并且我可以通过 ssh 访问机器。我需要将我的 Mac 连接到集群，所以如果我执行 hadoop fs -ls ，它应该会显示集群的内容。我已将 HADOOP_CONF 配置为指向集群的配置。我在集群中运行 CDH4。我在这里遗漏了什么，可以连接吗？

我需要做一些 ssh 密钥设置吗？

hadoop hdfs cloudera

2012-07-26T18:43:05.043

0 投票

5 回答

746 浏览

hadoop - 我无法从我的 sql 服务器导入表以通过 sqoop 进行配置

当我通过命令时：

$sqoop create-hive-table --connect 'jdbc:sqlserver://10.100.0.18:1433;username=cloud;password=cloud123;database=hadoop' --table 集群

出现一些错误和警告，最后它说，无法启动数据库'/var/lib/hive/metastore/metastore_db'，有关详细信息，请参阅下一个异常[再次显示导入错误列表]

最后它说 hive 以 satus 9 退出

这里有什么问题？我是 sqoop 和 hive 的新手。请任何人帮助我。

hadoop hive cloudera sqoop

2012-07-31T19:23:16.700

0 投票

3 回答

4411 浏览

hadoop - hadoop 守护进程没有启动

我已经在 linux 集群中安装了 Hadoop。当我尝试通过命令 $bin/start-all.sh 启动服务器时，出现以下错误：

我已将 conf/hadoop-env.sh 中的日志目录参数配置为 /tmp 目录，并且我已将 core-site.xml 中的“hadoop.tmp.dir”配置为 /tmp/ 目录。由于我无权访问 /var/log 目录，但 hadoop 守护进程仍在尝试写入 /var/log 目录并失败。

我想知道为什么会这样？

hadoop mapreduce cloudera

2012-08-04T00:44:33.593

0 投票

1 回答

60 浏览

hadoop - 如何在某个版本中启动hadoop

我们正在使用 hadoop-2.0.0-cdh4.0.0 并且我们使用启动 namenode hadoop namenode，如何在 0.20 模式或 0.23 模式下启动 hadoop 进程？

hadoop cloudera

2012-08-07T05:25:32.260

0 投票

1 回答

679 浏览

hadoop - Apache HBase 和 Cloudera HBase 是否兼容？

在工作中，我们正在尝试执行以下操作：

通过 Amazon 运行 Elastic MapReduce 作业，它将 Hadoop 冻结在 0.20.205 版本
将输出写入在 EC2 上运行的 HBase，特别是来自 Cloudera 的 0.92.1-cdh4.0.1

到目前为止，我发现当我在 Hadoop 作业（通过 maven 打包）中使用 Apache HBase 0.92.1 时，我的 WordCount 测试似乎有效。我担心这是意外工作，并且随着我的使用成熟可能会爆炸。

但是，当我在 Hadoop 作业中打包 HBase 0.92.1-cdh4.0.1 时，我得到ClassNotFoundException：

https://emr-qa.eventbrite.com.s3.amazonaws.com/logs/j-RWJ75VR11SLB/steps/1/stderr

Apache HBase jar 能否与 CDH Hbase 服务器很好地配合使用？
像这样混合版本和软件包是可怕的主意吗？

hadoop hbase cloudera elastic-map-reduce

2012-08-07T19:48:40.343

0 投票

4 回答

8034 浏览

java - 如何让 WordCount.java 在 Cloudera 4 上编译？

我正在尝试在 Cloudera 4 的 linux (CentOS) 安装上编译一个简单的 WordCount.java map-reduce 示例。当我引用任何 hadoop 类时，我一直遇到编译器错误，但我无法弄清楚哪些 jars /usr/lib/hadoop 下的数百个我需要添加到我的类路径中才能编译。任何帮助将不胜感激！我最想要的是一个用于字数统计的 java 文件（以防我发现的文件由于某种原因不好）以及用于编译和运行它的相关命令。

我正在尝试仅使用 javac 而不是 Eclipse 来做到这一点。无论哪种方式，我的主要问题是 Cloudera 4 安装中的 Hadoop 库到底是什么，我需要包含这些库才能编译经典的 WordCount 示例。基本上，我需要将 Java MapReduce API 类（Mapper、Reducer 等）放在我的类路径中。

java hadoop javac cloudera word-count

2012-08-11T01:04:19.507

问题标签 [cloudera]

Reference