问题标签 [cloudera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 无法使用 start-dfs.sh 启动守护进程
我们正在使用来自 cloudera 的 cdh4-0.0 发行版。我们无法使用以下命令启动守护程序。
solr - 搜索存储在 Hadoop 中的文档 - 使用哪个工具?
我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI ......
当您阅读有关该工具的信息时,您通常可以确定将提及其他工具中的每一个。
我不希望你向我解释每一个工具——当然不会。如果您可以帮助我针对我的特定场景缩小此设置范围,那就太好了。到目前为止,我不确定以上哪一个适合,而且看起来(一如既往)有不止一种方法可以做要做的事情。
场景是:500GB - ~20 TB 的文档存储在 Hadoop 中。多种格式的文本文档:email、doc、pdf、odt。有关存储在 SQL db 中的文档的元数据(发件人、收件人、日期、部门等)。文档的主要来源将是 ExchangeServer(电子邮件和附件),但不仅如此。现在开始搜索:用户需要能够对这些文档进行复杂的全文搜索。基本上,他会看到一些搜索配置面板(java 桌面应用程序,而不是 web 应用程序) - 他将设置日期范围、文档类型、发件人/收件人、关键字等 - 触发搜索并获取文档的结果列表(以及每个文档信息为什么包含在搜索结果中,即在文档中找到了哪些关键字)。
我应该考虑哪些工具,哪些不应该考虑?关键是用最少的“胶水”代码开发这样的解决方案。我精通 SQLdbs,但对 Apache 和相关技术很不适应。
基本工作流程如下所示:ExchangeServer/其他来源 -> 从 doc/pdf/... 转换 -> 重复数据删除 -> Hadoop + SQL(元数据) -> 构建/更新索引 <- 搜索文档(并快速完成) -> 显示搜索结果
谢谢!
java - Amazon (EMR) 使用哪个 Hadoop 版本?
我想创建一个 Hadoop 作业并在 EC2 Map Reduce 上运行它。我还想在上传到 EC2 之前在本地运行该作业。
我应该在本地拥有哪个版本/类型的 Hadoop?我可以使用 Cloudera 虚拟机吗?亚马逊使用哪个 Hadoop 版本?
hadoop - HBase:运行 PerformanceEvaluation 时发生 PrivilegedActionException
我在 Hadoop 集群中安装了 HBase(版本 0.90.6-cdh3u4)。我想测试性能。但是我跑了
从运行 HMaster 的机器上,性能评估向 Hadoop 提交一个 map-reduce 作业。但这项工作因以下消息而失败:
2012-07-26 12:45:17,733 错误 org.apache.hadoop.security.UserGroupInformation:PriviledgedActionException as:root (auth:SIMPLE) 原因:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:失败 22193 操作:服务器问题:test-8:60020, 2012-07-26 12:45:17,734 WARN org.apache.hadoop.mapred.Child: Error running child org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 22193 actions: 服务器问题:test-8:60020,在 org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.processBatchOfPuts(HConnectionManager. java:1499) 在 org.apache.hadoop.hbase 的 org.apache.hadoop.hbase.client.HTable.flushCommits(HTable.java:859)。PerformanceEvaluation$Test.testTakedown(PerformanceEvaluation.java:754) at org.apache.hadoop.hbase.PerformanceEvaluation$Test.test(PerformanceEvaluation.java:771) at org.apache.hadoop.hbase.PerformanceEvaluation.runOneClient(PerformanceEvaluation.java: 1098)在 org.apache.hadoop.hbase.PerformanceEvaluation$EvaluationMapTask.map(PerformanceEvaluation.java:400) 在 org.apache.hadoop.map(PerformanceEvaluation.java:447) .mapreduce.Mapper.run(Mapper.java:144) 在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:647) 在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:323 ) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:270) 在 java.security.AccessController.doPrivileged(Native Method) 在 javax.security.auth.Subject.doAs(Subject.java:396) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1177) 在 org.apache.hadoop.mapred.Child.main(Child.java:264) 2012-07-26 12:45 :17,740 INFO org.apache.hadoop.mapred.Task:为任务运行清理
然后我尝试了其他一些 map-reduce 作业,它们都可以成功完成。所以我认为 Hadoop 本身运行良好。
此外,Hbase Shell 中的操作也可以。我可以创建表,放置一些数据......这个异常只在运行 PerformanceEvaluation 时发生。
谁能知道如何解决它?
hadoop - 如何将 mac 连接到 hadoop/hdfs 集群
我有在集群中运行的 CDH,并且我可以通过 ssh 访问机器。我需要将我的 Mac 连接到集群,所以如果我执行 hadoop fs -ls ,它应该会显示集群的内容。我已将 HADOOP_CONF 配置为指向集群的配置。我在集群中运行 CDH4。我在这里遗漏了什么,可以连接吗?
我需要做一些 ssh 密钥设置吗?
hadoop - 我无法从我的 sql 服务器导入表以通过 sqoop 进行配置
当我通过命令时:
$sqoop create-hive-table --connect 'jdbc:sqlserver://10.100.0.18:1433;username=cloud;password=cloud123;database=hadoop' --table 集群
出现一些错误和警告,最后它说,无法启动数据库'/var/lib/hive/metastore/metastore_db',有关详细信息,请参阅下一个异常[再次显示导入错误列表]
最后它说 hive 以 satus 9 退出
这里有什么问题?我是 sqoop 和 hive 的新手。请任何人帮助我。
hadoop - hadoop 守护进程没有启动
我已经在 linux 集群中安装了 Hadoop。当我尝试通过命令 $bin/start-all.sh 启动服务器时,出现以下错误:
我已将 conf/hadoop-env.sh 中的日志目录参数配置为 /tmp 目录,并且我已将 core-site.xml 中的“hadoop.tmp.dir”配置为 /tmp/ 目录。由于我无权访问 /var/log 目录,但 hadoop 守护进程仍在尝试写入 /var/log 目录并失败。
我想知道为什么会这样?
hadoop - 如何在某个版本中启动hadoop
我们正在使用 hadoop-2.0.0-cdh4.0.0 并且我们使用启动 namenode hadoop namenode
,如何在 0.20 模式或 0.23 模式下启动 hadoop 进程?
hadoop - Apache HBase 和 Cloudera HBase 是否兼容?
在工作中,我们正在尝试执行以下操作:
- 通过 Amazon 运行 Elastic MapReduce 作业,它将 Hadoop 冻结在 0.20.205 版本
- 将输出写入在 EC2 上运行的 HBase,特别是来自 Cloudera 的 0.92.1-cdh4.0.1
到目前为止,我发现当我在 Hadoop 作业(通过 maven 打包)中使用 Apache HBase 0.92.1 时,我的 WordCount 测试似乎有效。我担心这是意外工作,并且随着我的使用成熟可能会爆炸。
但是,当我在 Hadoop 作业中打包 HBase 0.92.1-cdh4.0.1 时,我得到ClassNotFoundException
:
https://emr-qa.eventbrite.com.s3.amazonaws.com/logs/j-RWJ75VR11SLB/steps/1/stderr
- Apache HBase jar 能否与 CDH Hbase 服务器很好地配合使用?
- 像这样混合版本和软件包是可怕的主意吗?
java - 如何让 WordCount.java 在 Cloudera 4 上编译?
我正在尝试在 Cloudera 4 的 linux (CentOS) 安装上编译一个简单的 WordCount.java map-reduce 示例。当我引用任何 hadoop 类时,我一直遇到编译器错误,但我无法弄清楚哪些 jars /usr/lib/hadoop 下的数百个我需要添加到我的类路径中才能编译。任何帮助将不胜感激!我最想要的是一个用于字数统计的 java 文件(以防我发现的文件由于某种原因不好)以及用于编译和运行它的相关命令。
我正在尝试仅使用 javac 而不是 Eclipse 来做到这一点。无论哪种方式,我的主要问题是 Cloudera 4 安装中的 Hadoop 库到底是什么,我需要包含这些库才能编译经典的 WordCount 示例。基本上,我需要将 Java MapReduce API 类(Mapper、Reducer 等)放在我的类路径中。