问题标签 [distributed-cache]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

162 问题

0 投票

2 回答

761 浏览

hadoop - Hadoop分布式缓存通过通用选项-文件

当我在阅读 Hadoop In Action 一书时，有一个选项指出，与其通过程序将小文件添加到分布式缓存中，不如使用 -files 通用选项来完成。

当我在代码的 setup() 中尝试此操作时，我在 fs.open() 处收到 FileNotFoundException，它向我显示了一个不确定的路径。

问题是：如果我默认使用 -files 通用选项，文件将复制到 HDFS 的哪个位置？

我试图执行的代码如下..

这是我在跟踪中看到的以下异常

我开始工作就像

任何方向都会非常有帮助。谢谢

2015-03-23T16:41:49.903

0 投票

1 回答

2153 浏览

hadoop - 如何在 oozie 作业中将文件添加到分布式缓存

我正在实现一个 oozie 工作流程，在第一份工作中，我使用 sqoop 从数据库中读取数据并将其写入 hdfs。在第二份工作中，我需要读取大量数据，并使用我在第一份工作中编写的文件来处理大量数据。以下是我的想法或尝试：

假设作业一将文件写入 hdfs 上的某个目录，将文件添加到作业二的驱动程序类中的分布式缓存将不起作用，因为 oozie 工作流只知道作业的映射器和减速器类。（如果我在这里错了，请纠正我）
我还尝试写入工作流的 lib 目录，希望这些文件随后会自动添加到分布式缓存中，但我知道 lib 目录应该仅在作业运行时读取。
我还想如果我可以将文件添加到setup()作业 2 中的分布式缓存中，那么我可以在映射器/减速器中访问它们。我不知道如何在中添加文件setup()，这可能吗？

我怎么能从分布式缓存中读取后续作业中上一个作业的输出文件。我已经在使用作业二的输入目录来读取需要处理的数据，所以我不能使用它。

我在 Ubuntu 12.04 虚拟机上使用 Hadoop 1.2.1、Oozie 3.3.2。

hadoop mapreduce jobs oozie distributed-cache

2015-04-15T14:11:04.887

0 投票

1 回答

200 浏览

hadoop - 如何在分布式缓存中使用 MapReduce 输出

假设我有一个 MapReduce 作业，它正在创建一个输出文件part-00000，并且在完成此作业后还有一个作业正在运行。

如何将分布式缓存中第一个作业的输出文件用于第二个作业。

hadoop mapreduce distributed-cache

2015-05-13T20:13:45.117

0 投票

1 回答

1404 浏览

ehcache - EhCache 可以处理的值的最大大小

在所有存储层（内存存储、堆外存储、磁盘存储）中，可以在 EhCache 中保存的值的最大大小是多少？

我的终极问题是，EhCache 是否适合缓存大文件流？

ehcache distributed-caching distributed-cache ehcache-bigmemory

2015-06-22T09:13:48.117

0 投票

1 回答

267 浏览

jboss - Infinispan - 节点故障转移和恢复控制

希望大家都做得很好。我是 Infinispan 的新手，我需要帮助。假设我有一个以分布式模式运行的 3 个节点的集群。考虑以下场景：

Infinispan 版本：7.1.1

节点数 = 3（NodeA、NodeB、NodeC）

模式 = 分布式

数量所有者 = 2

集群中键/值的数量 = 3 [(k1,v1),(k2,v2),(k3,v3)]

每个节点中的密钥分布：

节点A --> k1,k2

节点B --> k2,k3

节点C --> k3,k1

现在，假设节点 B 已关闭。

Q1。下面的场景会是这样吗？

节点A --> k1,k2,k3

节点C --> k3,k1,k2

Q2。如果节点 B 再次活跃，我希望我的集群恢复其原始状态，例如：

节点A --> k1,k2

节点B --> k2,k3

节点C --> k3,k1

是否有任何机制可以实现上述两种状态（节点故障后和节点恢复后）。

谁能帮我吗？任何帮助将不胜感激。

jboss infinispan distributed-caching distributed-cache

2015-06-28T06:22:31.930

0 投票

2 回答

893 浏览

hadoop - 为什么我们在hadoop中使用分布式缓存？

无论如何，map reduce 框架中的节点之间存在大量文件传输。那么分布式缓存的使用是如何提高性能的呢？

hadoop mapreduce hdfs reduce distributed-cache

2015-06-29T05:38:58.020

0 投票

1 回答

708 浏览

hadoop - 从 Pig UDF Java 类、Amazon EMR 中的分布式缓存访问文件

我正在尝试访问 UDF 中的文件 (sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊 EMR 来运行 Pig 作业。我在创建集群时使用 EMR 引导操作将文件 (sample.txt) 复制到 HDFS。

bootstrap.sh（将文件从 s3 复制到 hdfs）

UsingSample.java（使用 sample.txt 的 UDF）

}

create_cluster.sh（创建集群并执行 Pig 脚本的脚本）

我得到的错误是尝试访问 getCacheFiles() 中的 sample.txt 时出现 FileNotFound 异常。

我在用：

Hadoop 2.4 Pig 0.12

请帮忙。

hadoop apache-pig amazon-emr distributed-cache udf

2015-07-19T21:21:48.487

0 投票

0 回答

719 浏览

apache-pig - 使用 Pig 和 Python 进行分布式缓存

我知道有很多资源可以在带有 Java-udfs 的 Pig 脚本中使用分布式缓存。但我还没有找到任何可以解释与 python udfs 相同的东西。另外，我在写pig脚本的时候也没有找到分布式缓存使用的详细解释。

我不是在问任何问题。但我想有一个地方，像我这样的人可以让他们的第一个 pig + python + 分布式缓存示例工作。如果我在不知不觉中问错了问题，我很抱歉。但我将非常感谢您的帮助。

谢谢，r0ger22

apache-pig distributed-cache

2015-07-30T07:26:42.603

0 投票

2 回答

454 浏览

java - 在主函数中读取文件 - Hadoop

我正在尝试在我的 hadoop 作业的主要方法中读取文件。不在映射器或减速器中。我正在使用带有 CUSTOM JAR 的 EMR Amazon

在我正在做的主要功能内部：

我不知道分布式缓存是否可用于主要功能或仅在映射器/减速器功能中。我需要使用 DistributedCache API 吗？

AWS 正在执行的行代码：

怎么能做到这一点？

java hadoop emr amazon-emr distributed-cache

2015-08-11T17:03:23.210

0 投票

1 回答

40 浏览

hadoop - 读取驱动程序 Hadoop 中的文件

是否可以在 Hadoop 驱动程序内的分布式缓存中读取文件？我已经实现了工具接口，并且正在使用 -files 将文件添加到分布式缓存中。

或者在我开始工作后这个文件会被复制到分布式缓存中？

hadoop mapreduce distributed-cache

2015-08-11T20:13:54.763

1 2 3 4 5 6 7 8 9 10

问题标签 [distributed-cache]

Reference