问题标签 [cloudera-quickstart-vm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 验证 Cloudera Hadoop 服务是否在容器中运行
通过 clouera/quickstart 映像启动容器中的所有 cloudera 服务后,我需要验证所有服务(如 HDFS、HBase、Hive 等)是否已启动。如果任何服务未启动,请尝试重新启动它或显示一条消息...可以有一个shell脚本或java代码来验证这一点吗?需要代码帮助..
apache-spark - 无法在 Cloudera VM 上运行 PySpark(不使用交互式 shell)
当我按照这个示例并尝试spark-submit
在 cloudera vm 环境中使用该命令时,我不断收到以下错误:
我试过这两个命令:
1、$ spark-submit --master yarn --deploy-mode client --executor-memory 1g \ --name wordcount --conf "spark.app.id=wordcount" wordcount.py hdfs://namenode_host:8020/path/to/inputfile.txt
2、$ spark-submit --master yarn --deploy-mode client --executor-memory 1g \ --name wordcount --conf "spark.app.id=wordcount" wordcount.py inputfile.txt
有人可以帮忙吗?
hadoop - 如果给定文件夹中发生任何更改,如何安排 OOZIE 作业?
我想根据文件夹安排一个 oozie 作业,即
我在 HDFS 位置有一个文件夹,每天都会在该文件夹中添加一个文件,格式为 date.txt (exp :20160802.txt )。
如果该文件夹中添加了任何新文件,我想安排一个 OOZIE 批处理。
请帮我解决这个问题,我该如何安排我的用例场景。
提前致谢。
hadoop - 尽管表中有主键,但导入时 Sqoop --split-by 错误
以 dept_id 作为主键的 MySQL 表
Sqoop 查询
控制台上出现错误的结果:
并行导入查询结果时,必须指定
--split-by
---问题点!---
即使表有主键并且拆分可以在 2 个映射器之间平均分配,那么--spit-by或-m 1需要什么?
指导我一样。
谢谢。
apache-spark - 使用 Cloudera 快速入门 5.7 的 Apache Spark GraphX
我正在尝试使用来自该网站的 Cloudera Quickstart 5.7 使用 Spark GraphX:http: //kukuruku.co/hub/algorithms/social-network-analysis-spark-graphx
我所做的步骤:1)打开终端 2)运行spark-shell
3)运行import org.apache.spark.graphx._
当我提交此代码时,我收到以下错误:
任何人都知道我想念什么以返回此错误?
谢谢!
amazon-web-services - 设置 AWS 凭证 - Cloudera 快速入门 Docker 容器
我正在尝试使用 Cloudera 的 Quickstart docker 容器来测试简单的 Hadoop/Hive 作业。我希望能够在 S3 中的数据上运行作业,但到目前为止我遇到了问题。
我已将以下属性添加到 core-site.xml、hive-site.xml、hdfs-site.xml。
无论如何,在 Hive 中尝试创建指向 S3 位置的外部表时,我收到错误消息:
hadoop - Sqoop 导出插入重复条目
我试图了解 sqoop 导出的工作原理。我在 mysql 中有一个表站点,其中包含两列 id 和 url 并包含两行
该表没有主键
当我通过执行以下命令将条目从 HDFS 导出到 mysql 站点表时,它会插入重复的条目
我在 HDFS 中有以下条目
sqoop export --table site --connect jdbc:mysql://localhost/loudacre -- username training --password training --export-dir /site/ --update-mode allowinsert --update-key id
因此,它不再更新已经存在的 id,而是再次插入重复的 id(意味着两个 1 , 1 代表 www.one.com 和 1 代表 www.yahoo.com)
即使我删除了 --update-key 结果是一样的。它发生是因为表没有主键吗
我在 Cloudera 快速入门 VM 中使用 sqoop 1.4.5
有什么帮助吗?
cloudera - 更改 Cloudera 快速入门域名
我已经在本地服务器中安装了 Cloudera 快速启动 VM,并从我的本地计算机访问它。它使用的域名是quickstart.cloudera
. 因此,对于远程访问,我需要每次手动将其更改为我的本地 IP 地址。我在哪里可以编辑此设置并在那里提供我的 IP?
cloudera - 将节点添加到 Cloudera 快速入门 VM
我安装了 Cloudera Quickstart VM,它是单节点。如何向其中添加多个节点并使其成为一个集群?我现在正在使用 Virtualboax 并尝试克隆基本快速入门 VM,然后将其联网并使用 Cloudera 管理器中的添加集群向导。但它失败了。任何人都知道如何添加多个节点?
sqoop - sqoop 导入所有表工具不起作用
当我在 Cloudera VM 上运行以下脚本时,出现以下错误。