问题标签 [distcp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 是否可以在 2 个 Hdfs 目录(单独的集群)之间使用 distcp 来 distcp 文件(逗号分隔)?
我只需要 distcp x 个文件。
找不到办法。
一个想法是将其复制到一个临时目录上,然后对该目录进行distcp。完成后,我可以删除该临时目录。
单独的 distcp 命令(针对每个文件)。这可能很痛苦。
不确定是否允许逗号分隔。
有任何想法吗?
提前致谢。
amazon-s3 - 将数据从 Google Cloud 存储传输到 AWS S3
我正在将数据从其中传输Google Cloud Storage
到AWS S3
使用distcp
中EMR
(我已经进行了一些配置更改EMR
以实现此目的)。数据传输安全吗?如果没有,还有哪些其他选择?
hadoop - oozie distcp 操作中的正则表达式
我正在尝试将符合某些条件的所有文件复制到一个文件夹中
*
这里的符号${CURRENT_DATE_NO_DASH}_*
代表 A 或 B 或 C 等。它搜索所有文件夹。如果我使用${CURRENT_DATE_NO_DASH}_A
它只会搜索 1 个文件。我怎样才能让它只占用所有文件夹中的 2 个?我试过做(A|B)
,但这没有用。
java - 从 jsp servlet 运行 mapreduce 作业
我有一个简单的 java 程序,它包装 distcp 以在 hadoop 集群上复制文件。我可以从 IDE 和 hadoop cli 成功运行它。
我想要一个 jsp Web 应用程序,以便人们可以使用 Web 界面与我的程序进行交互。
我创建了一个包含所有依赖项的胖 jar,并将其部署在我的 Web 应用程序中。现在的问题是,每当程序要提交 distcp 作业时,它都会给出以下错误:
我检查了mapreduce.framework.name,它确实是yarn。
有任何想法吗?
更新1:
经过一些调试,我发现以下代码:
当我在本地运行它时,我得到:
但是当它从网络服务器运行时,我得到:
我仍然无法找出为什么会发生这种情况。我在 webserver 中部署的 fat jar 中有YarnClientProtocolProvider。
更新2:
我创建的 uber jar 以某种方式合并了依赖 jar 的 META-INF/services 目录下的所有服务提供者声明,因此在那里写入的最后一个文件仅包含“org.apache.hadoop.mapred.LocalClientProtocolProvider”。
我仍然想知道为什么当我使用
它识别 'org.apache.hadoop.mapred.YarnClientProtocolProvider' 虽然它不在 my.jar 的 META-INF/services 目录下的服务提供者中。
现在我认为问题应该是如何创建一个不合并服务提供者条目的 uber jar。
hadoop - Hadoop distcp - 可以保持每个文件相同(保持文件大小)?
当我运行一个简单的 distcp 命令时:
src-dir
我对dest-dir的大小(以字节为单位)略有不同
我的问题是:
- 是什么导致了这种差异?我的 dest 目录的内容是否仍然与原始目录相同?
- 最重要的是 - 我是否可以设置参数以确保每个文件看起来与其 src 对应部分完全相同(即相同的文件大小)?
hadoop - 如何列出活动的 DISTCP 作业?
如何列出活动的 DISTCP 作业?
我正在两个集群之间运行 distcp 作业。
hadoop distcp hdfs://x/y /x/y
我想连续运行它,但需要确保现有distcp
任务完成。
我在源集群和目标集群上都尝试了以下操作,但我看不到复制操作。
mapred job -list all
hadoop - hadoop fs -rm -skipTrash 不起作用
我使用将一些文件从目录复制到目录
我在 scipt 完成之前停止了它,剩下的很多.distcp.tmp.attempt
文件在 dst 目录中移动
现在我想清理 dst 目录。运行后
大多数文件都被删除了,但有些仍然存在(至少 HUE 是这样显示的)。奇怪的是,每次我运行时hadoop fs -rm -skipTrash
,根据 HUE,剩余文件的数量都会或多或少地变化。
我试过了
并看到一些应该删除的文件仍然存在。然后我跑
十几次,总是有更多的文件要删除(仍然有)。怎么了?
还
每次我以色调刷新页面时,文件数量都会增加。暂停。
编辑
在命令行中停止 distcp 似乎并没有真正杀死这项工作。这就是原因。
hadoop - 具有选定列的 HDFS 集群内副本
我正在使用 Avro 文件将数据存储在 HDFS 中。我需要从一个 avro 文件中复制选定的列数据,并将其发送到具有自己的模式文件(具有选定列信息)的同一集群中的另一个位置。我怎样才能做到这一点?是否可以使用 Hive 实现?或者 HDFS 中是否有任何实用程序可以帮助我做到这一点?
这是必需的,因为一个组必须能够访问整个表,而另一个组应该只能访问少数列。因此,我需要它们位于 HDFS 中的单独位置,只有所需的架构和 avro 文件。
amazon-s3 - s3DistCp 文件串联顺序
我正在尝试使用 AWS EMR 上的S3DistCp工具将多个文件(1.txt、2.txt、3.txt)合并到一个 gzip 文件中。我正在使用 groupBy 标志。现在,输出看起来像是源文件按名称以相反顺序串联起来的。
所以结果的内容顺序是 3.txt、2.txt 和 1.txt。
这是设计的方式吗?有没有办法允许以创建文件的相同顺序(按创建时间)进行连接?
hadoop - 从 HA 到非 HA 集群使用 distcp 需要哪些配置?
我想使用 Distcp 将数据从 HA 集群复制到非 HA 集群。我为此目的使用以下命令:
hadoop distcp hdfs://nameserviceofHAcluster/apps/hive/warehouse/tabletobecopied hdfs://namenode2/apps/hive/warehouse/
但它给出了以下错误:
引起:java.net.UnknownHostException:namenode2 ... 16 更多