问题标签 [distcp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 当我们传递单个文件时,hadoop distcp 不会创建文件夹
我在 hadoop Distcp 中面临以下问题,非常感谢任何建议或帮助。
我正在尝试将数据从 Google Cloud 平台复制到 Amazon S3
1)当我们有多个文件要从源复制到目标时(这工作正常)
2)当我们只有一个文件要从源复制到目标时(问题)
代码:
hadoop - 复制单个文件时出现hadoop discp问题
(注意:我需要使用 distcp 来获得并行性)
我在 /user/bhavesh 文件夹中有 2 个文件
我在 /user/bhavesh1 文件夹中有 1 个文件
将 2 个文件从 /user/bhavesh 复制到 /user/uday 文件夹(这工作正常)
这将创建 /user/uday 文件夹
如果创建文件而不是文件夹,则将 1 个文件从 /user/bhavesh1 复制到 /user/uday1 文件夹
我需要的是,如果有一个文件/user/bhavesh1/emp1.csv我需要它应该创建/user/uday1/emp1.csv [uday1 应该形成目录] 任何建议或帮助都非常感谢。
java - java.io.IOException:提交 DistCp 作业时将请求正文写入服务器时出错
当我提交 distcp 作业以将文件从不安全的 hadoop 集群复制到安全(kerberized)集群时,我遇到了以下错误:
由于Error writing request body to server
消息太宽泛,我不知道要挖掘什么。这里有什么提示吗?
仅供参考,我在安全集群上测试了 mapreduce pi 示例,它工作正常。
hadoop - java.lang.IllegalArgumentException:源文件列表和源路径都存在
我正在尝试distcp
通过执行以下命令将文件从 HDFS 复制到 S3
但我收到以下错误:
hadoop - 从 HDFS 复制到 S3 时使用 GroupBy 合并文件夹中的文件
我在 HDFS 中有以下文件夹:
每个文件夹中有近 50 个文件。我的目的是合并文件夹中的所有文件以获取单个文件,同时将其从 HDFS 复制到 S3 上。我遇到的问题是带有groupBy 选项的正则表达式。我试过这个,这似乎不起作用:
该命令本身有效,但我没有将每个文件夹中的文件合并到一个文件中,这让我相信问题出在我的正则表达式上。
apache - 将数据从一个集群复制到另一个集群时,Hadoop Distcp 中止
我正在尝试将分区 Hive 表的数据从一个集群复制到另一个集群。我正在使用 distcp 复制数据,但底层数据的数据是分区配置单元表的。我使用了以下命令。
但是随着表被分区,目录结构是根据分区表创建的。所以它显示错误创建重复和中止作业。
org.apache.hadoop.toolsCopyListing$DulicateFileException: 文件会导致重复。中止
我也用过-skipcrccheck
-update
-overwrite
,但没有奏效。
如何将表的数据从分区文件路径复制到目标?
hadoop - Hadoop distcp 未提供 AWS 凭证
我有一大堆 S3files 想放在 HDFS 上。鉴于涉及的文件数量,我首选的解决方案是使用“分布式副本”。但是由于某种原因,我无法让 hadoop distcp 获取我的 Amazon S3 凭证。我使用的命令是:
但是,这与不存在“-D”参数的行为相同。
我查看了 hadoop distcp 文档,但找不到关于为什么这不起作用的解决方案。我试过 -Dfs.s3n.awsAccessKeyId 作为一个也不起作用的标志。我已经读过如何明确地传递凭据不是一个好习惯,所以也许这只是一些以其他方式做的 gentil 建议?
应该如何使用 distcp 传递 S3 凭据?有谁知道?
hadoop - 使用 s3 dist cp 将数据从非 emr 集群复制到 s3 的权限问题
陈述我的问题
1)我想将我们的 cdh hadoop 集群备份到 s3
2)我们有一个正在运行的 emr 集群
3)我正在尝试从 emr 集群运行 s3distcp,将 src 作为 cdh 远程集群的 hdfs URL,将目标作为 s3 。
出现以下错误:原因:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):权限被拒绝:user=mapred, access=RE AD_EXECUTE, inode="/tmp/hadoop-mapred/映射/分期“
以下是我在这里浏览文档后的问题
http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html
1)这可行吗?我可以从 s3distcp 文档中看到可以给出任何 hdfs url。但我找不到任何关于它在外部集群情况下如何工作的文档。
2)我想知道在文档中提到的暂存目录(有人提到s3distcp在复制到s3之前将数据复制到这个目录)是在哪里创建的,即在远程集群或emr集群中。
azure - 使用 distcp 时,本地是否支持 wasb 协议?
我想将我的工作负载从本地迁移到 azure blob。我可以使用 distcp 将工作负载转移到 azure 吗?因为它是 blob,所以我将在我的目标参数中使用 wasb。在这种情况下,wasb 会起作用吗?
hadoop - 有什么方法可以使用 Distcp 在两个集群之间复制数据,这些数据不能通过第三台机器直接访问?
我们需要将完整的数据从本地 hadoop 集群移动到另一个存储在云中的集群。我想知道是否有任何方法可以使用 DistCP / 它的替代方案通过本地机器将批量数据移动到云存储,并连接到两者?
PS:云组件 - HDInsight 和 BLOB 存储
提前致谢。