问题标签 [alluxio]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1447 浏览

scala - Spark Tachyon:如何删除文件?

在 Scala 中,作为一项实验,我使用 Spark 在 Tachyon 上创建了一个序列文件并将其读回。我还想使用 Spark 脚本从 Tachyon 中删除该文件。

我不太了解 Scala 语言,也找不到有关文件路径操作的参考。我确实找到了一种在 Scala 中以某种方式使用 Java 来做到这一点的方法,但我无法使用 Tachyon 让它工作。

0 投票
1 回答
416 浏览

amazon-s3 - 在文件系统下在 S3 上设置 Tachyon 时出错

我正在尝试在 S3 文件系统上设置 Tachyon。我对 Tachyon 完全陌生,并且仍在认真阅读我能找到的内容。我的 tachyon-env.sh 如下所示:

但是,当我尝试格式化 Tachyon 时,出现以下错误:

我应该更改我的 jets3t jar 文件,还是其他?这个问题可能真的很基础,但这正是我现在的水平。不过,我用 Tachyon 进行了一些基本测试。

我会很高兴有任何帮助!

0 投票
1 回答
396 浏览

alluxio - 文件系统下 s3 的 Tachyon 配置

我正在尝试在 S3 文件系统上设置 Tachyon。对于 HDFS,tachyon 有一个名为 TACHYON_UNDERFS_HDFS_IMPL 的参数,该参数设置为“org.apache.hadoop.hdfs.DistributedFileSystem”。有谁知道 S3 是否存在这样的参数?如果有,它的价值是什么?

提前感谢您的帮助!

0 投票
1 回答
1394 浏览

apache-spark - 有关 Spark 驱动程序(及其 YARN 容器)在 yarn-cluster 模式下的故障转移过程如何工作的资源/文档

我试图了解在以集群模式部署 Yarn 时 Spark 驱动程序是否是单点故障。因此,我想在此上下文中更好地了解有关 Spark 驱动程序的 YARN 容器的故障转移过程的内部情况。

我知道 Spark Driver 将在 Yarn Container 内的 Spark Application Master 中运行。如果需要,Spark Application Master 将向 YARN 资源管理器请求资源。但是,在 Spark Application Master(和 Spark 驱动程序)的 YARN 容器失败的情况下,我无法找到有关故障转移过程的足够详细信息的文档。

我试图找出一些详细的资源,可以让我回答与以下场景相关的一些问题:如果运行 Spark Application Master / Spark Driver 的 YARN 容器的主机在 1 小时内失去网络连接:

  1. YARN 资源管理器是否使用另一个 Spark Application Master/Spark Driver 生成一个新的 YARN 容器?

  2. 在那种情况下(产生一个新的 YARN 容器),如果 Executors 中的至少 1 个阶段已经完成并在失败之​​前通知原始驱动程序,它是否会从头开始启动 Spark 驱动程序?persist() 中使用的选项在这里有什么不同吗?新的 Spark Driver 是否会知道 executor 已经完成了 1 个阶段?Tachyon 会在这种情况下提供帮助吗?

  3. 如果在原始 Spark Application Master 的 YARN 容器的主机中恢复网络连接,是否会触发故障回复过程?我猜这种行为可以通过 YARN 来控制,但是我不知道在集群模式下部署 SPARK 时的默认设置是什么。

如果您能指出一些文档/网页,我将非常感激,其中详细探讨了纱线集群模式下的 Spark 架构和故障转移过程。

0 投票
1 回答
436 浏览

apache-spark - Tachyon:在 copyFromLocal 命令期间无法重命名

我正在使用 Apache Spark 构建应用程序。为了使其他应用程序可以使用 RDD,我尝试了两种方法:

  1. 使用超光速粒子
  2. 使用火花作业服务器

我是 Tachyon 的新手。我完成了在集群上运行 Tachyon 中给出的以下任务

我可以从master:19999URL 访问 UI。

从 tachyon 目录我成功创建了一个目录./bin/tachyon tfs mkdir /Test 但是在尝试执行 copyFromLocal 命令时,我收到以下错误:

0 投票
0 回答
317 浏览

apache-spark - spark-ec2 和 Tachyon hadoop 版本差异

我尝试使用 spark-ec2 使用 hadoop 2.x 版本启动 ec2 集群,所以我尝试了:

然后我发现在 tachyon 设置过程中有错误:

我搜索了一些相关的问题,这似乎Server IPC version 7 cannot communicate with client version 4意味着服务器正在使用 hadoop 2.x,而客户端正在使用 hadoop 1.x。但是,我使用 hadoop 2.4.0 构建了我的 spark,并且我还尝试了使用 hadoop 2.4.0 及更高版本的官方 spark 预构建版本,两者都导致相同的错误。

顺便说一句,通过设置创建的hadoop版本--hadoop-major-version=2Hadoop 2.0.0-cdh4.2.0. 这是一个问题吗?但是我在这里尝试使用 2.4 或 2.4.0,它们都没有被识别为有效的 hadoop 版本

0 投票
1 回答
342 浏览

apache-spark - 在火花工作完成后,Tachyon 自动删除了 OFF_HEAP rdd

我运行一个 spark 应用程序,它使用 StorageLevel.OFF_HEAP 来持久化一个 rdd(我的 tachyon 和 spark 都处于本地模式)。

像这样:

坚持完成后,我可以从 localhost:19999(tachyon 的 Web UI)看到我的 OFF_HEAP 文件,这是我的例外。

但是,在 spark 应用程序结束后(sc.stop,但 tachyon 正在工作),我的块(OFF_HEAP rdd)被删除了。而且我无法从 localhost:19999 找到我的文件。这不是我想要的。我认为这些文件在 persist() 方法之后属于 Tachyon(不是 spark),它们不应该被删除。

那么,谁删除了我的文件,何时删除?这是正常的方式吗?

0 投票
1 回答
852 浏览

apache-spark - Tachyon 默认情况下是否由 Apache Spark 中的 RDD 实现?

我正在尝试了解 Spark 的内存功能。在这个过程中,我遇到了Tachyon ,它基本上位于内存数据层中,它通过使用沿袭系统提供了无需复制的容错能力,并通过检查点数据集来减少重新计算。现在让人困惑的是,所有这些功能都可以通过 Spark 的标准RDD系统实现。所以我想知道 RDD 是否在幕后实现了 Tachyon 来实现这些功能?如果不是 Tachyon 的用途,它的所有工作都可以由标准 RDD 完成。还是我在将这两者联系起来时犯了一些错误?一个详细的解释或链接将是一个很大的帮助。谢谢你。

0 投票
2 回答
1328 浏览

apache-spark - 将 OFF_HEAP 存储与 Spark 1.4.0 和 Tachyon 0.6.4 一起使用时出错

我正在尝试使用 spark 1.4.0 和 tachyon 0.6.4 上的堆外存储来持久化我的 RDD,如下所示:

之后我得到以下异常。

有什么想法吗?

我也对文本文件进行了同样的尝试,并且能够将其保留在 tachyon 中。问题在于最初从镶木地板中读取的持久数据帧。

0 投票
1 回答
88 浏览

apache-spark - apache-spark 部署:独立 VS 多个虚拟机

我有一台机器可以部署 Spark、Hadoop 和 Tachyon。来自 hdfs/tachyon 的 spark 操作在一个节点上是否会更快,所有内核/RAM 或多个 VM 节点均分资源?内存 < 200GB。

Spark 中广播的性能和可扩展性已经很老了,但表明网络流量的增加可能对all vs VM 的问题产生很大的负面影响。