问题标签 [distributed-cache]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
761 浏览

hadoop - Hadoop分布式缓存通过通用选项-文件

当我在阅读 Hadoop In Action 一书时,有一个选项指出,与其通过程序将小文件添加到分布式缓存中,不如使用 -files 通用选项来完成。

当我在代码的 setup() 中尝试此操作时,我在 fs.open() 处收到 FileNotFoundException,它向我显示了一个不确定的路径。

问题是:如果我默认使用 -files 通用选项,文件将复制到 HDFS 的哪个位置?

我试图执行的代码如下..

这是我在跟踪中看到的以下异常

我开始工作就像

任何方向都会非常有帮助。谢谢

0 投票
1 回答
2153 浏览

hadoop - 如何在 oozie 作业中将文件添加到分布式缓存

我正在实现一个 oozie 工作流程,在第一份工作中,我使用 sqoop 从数据库中读取数据并将其写入 hdfs。在第二份工作中,我需要读取大量数据,并使用我在第一份工作中编写的文件来处理大量数据。以下是我的想法或尝试:

  1. 假设作业一将文件写入 hdfs 上的某个目录,将文件添加到作业二的驱动程序类中的分布式缓存将不起作用,因为 oozie 工作流只知道作业的映射器和减速器类。(如果我在这里错了,请纠正我)

  2. 我还尝试写入工作流的 lib 目录,希望这些文件随后会自动添加到分布式缓存中,但我知道 lib 目录应该仅在作业运行时读取。

  3. 我还想如果我可以将文件添加到setup()作业 2 中的分布式缓存中,那么我可以在映射器/减速器中访问它们。我不知道如何在 中添加文件setup(),这可能吗?

我怎么能从分布式缓存中读取后续作业中上一个作业的输出文件。我已经在使用作业二的输入目录来读取需要处理的数据,所以我不能使用它。

我在 Ubuntu 12.04 虚拟机上使用 Hadoop 1.2.1、Oozie 3.3.2。

0 投票
1 回答
200 浏览

hadoop - 如何在分布式缓存中使用 MapReduce 输出

假设我有一个 MapReduce 作业,它正在创建一个输出文件part-00000,并且在完成此作业后还有一个作业正在运行。

如何将分布式缓存中第一个作业的输出文件用于第二个作业。

0 投票
1 回答
1404 浏览

ehcache - EhCache 可以处理的值的最大大小

在所有存储层(内存存储、堆外存储、磁盘存储)中,可以在 EhCache 中保存的值的最大大小是多少?

我的终极问题是,EhCache 是否适合缓存大文件流?

0 投票
1 回答
267 浏览

jboss - Infinispan - 节点故障转移和恢复控制

希望大家都做得很好。我是 Infinispan 的新手,我需要帮助。假设我有一个以分布式模式运行的 3 个节点的集群。考虑以下场景:

Infinispan 版本:7.1.1

节点数 = 3(NodeA、NodeB、NodeC)

模式 = 分布式

数量所有者 = 2

集群中键/值的数量 = 3 [(k1,v1),(k2,v2),(k3,v3)]

每个节点中的密钥分布:

节点A --> k1,k2

节点B --> k2,k3

节点C --> k3,k1

现在,假设节点 B 已关闭。

Q1。下面的场景会是这样吗?

节点A --> k1,k2,k3

节点C --> k3,k1,k2

Q2。如果节点 B 再次活跃,我希望我的集群恢复其原始状态,例如:

节点A --> k1,k2

节点B --> k2,k3

节点C --> k3,k1

是否有任何机制可以实现上述两种状态(节点故障后和节点恢复后)。

谁能帮我吗?任何帮助将不胜感激。

0 投票
2 回答
893 浏览

hadoop - 为什么我们在hadoop中使用分布式缓存?

无论如何,map reduce 框架中的节点之间存在大量文件传输。那么分布式缓存的使用是如何提高性能的呢?

0 投票
1 回答
708 浏览

hadoop - 从 Pig UDF Java 类、Amazon EMR 中的分布式缓存访问文件

我正在尝试访问 UDF 中的文件 (sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊 EMR 来运行 Pig 作业。我在创建集群时使用 EMR 引导操作将文件 (sample.txt) 复制到 HDFS。

bootstrap.sh(将文件从 s3 复制到 hdfs)


UsingSample.java(使用 sample.txt 的 UDF)

}


create_cluster.sh(创建集群并执行 Pig 脚本的脚本)


我得到的错误是尝试访问 getCacheFiles() 中的 sample.txt 时出现 FileNotFound 异常。

我在用:

Hadoop 2.4 Pig 0.12

请帮忙。

0 投票
0 回答
719 浏览

apache-pig - 使用 Pig 和 Python 进行分布式缓存

我知道有很多资源可以在带有 Java-udfs 的 Pig 脚本中使用分布式缓存。但我还没有找到任何可以解释与 python udfs 相同的东西。另外,我在写pig脚本的时候也没有找到分布式缓存使用的详细解释。

我不是在问任何问题。但我想有一个地方,像我这样的人可以让他们的第一个 pig + python + 分布式缓存示例工作。如果我在不知不觉中问错了问题,我很抱歉。但我将非常感谢您的帮助。

谢谢,r0ger22

0 投票
2 回答
454 浏览

java - 在主函数中读取文件 - Hadoop

我正在尝试在我的 hadoop 作业的主要方法中读取文件。不在映射器或减速器中。我正在使用带有 CUSTOM JAR 的 EMR Amazon

在我正在做的主要功能内部:

我不知道分布式缓存是否可用于主要功能或仅在映射器/减速器功能中。我需要使用 DistributedCache API 吗?

AWS 正在执行的行代码:

怎么能做到这一点?

0 投票
1 回答
40 浏览

hadoop - 读取驱动程序 Hadoop 中的文件

是否可以在 Hadoop 驱动程序内的分布式缓存中读取文件?我已经实现了工具接口,并且正在使用 -files 将文件添加到分布式缓存中。

或者在我开始工作后这个文件会被复制到分布式缓存中?