“alluxio”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1447 浏览

scala - Spark Tachyon：如何删除文件？

在 Scala 中，作为一项实验，我使用 Spark 在 Tachyon 上创建了一个序列文件并将其读回。我还想使用 Spark 脚本从 Tachyon 中删除该文件。

我不太了解 Scala 语言，也找不到有关文件路径操作的参考。我确实找到了一种在 Scala 中以某种方式使用 Java 来做到这一点的方法，但我无法使用 Tachyon 让它工作。

2014-07-19T02:45:23.270

0 投票

1 回答

416 浏览

amazon-s3 - 在文件系统下在 S3 上设置 Tachyon 时出错

我正在尝试在 S3 文件系统上设置 Tachyon。我对 Tachyon 完全陌生，并且仍在认真阅读我能找到的内容。我的 tachyon-env.sh 如下所示：

但是，当我尝试格式化 Tachyon 时，出现以下错误：

我应该更改我的 jets3t jar 文件，还是其他？这个问题可能真的很基础，但这正是我现在的水平。不过，我用 Tachyon 进行了一些基本测试。

我会很高兴有任何帮助！

amazon-s3 alluxio

2014-10-29T17:52:36.197

0 投票

1 回答

396 浏览

alluxio - 文件系统下 s3 的 Tachyon 配置

我正在尝试在 S3 文件系统上设置 Tachyon。对于 HDFS，tachyon 有一个名为 TACHYON_UNDERFS_HDFS_IMPL 的参数，该参数设置为“org.apache.hadoop.hdfs.DistributedFileSystem”。有谁知道 S3 是否存在这样的参数？如果有，它的价值是什么？

提前感谢您的帮助！

alluxio

2014-10-29T22:49:16.877

0 投票

1 回答

1394 浏览

apache-spark - 有关 Spark 驱动程序（及其 YARN 容器）在 yarn-cluster 模式下的故障转移过程如何工作的资源/文档

我试图了解在以集群模式部署 Yarn 时 Spark 驱动程序是否是单点故障。因此，我想在此上下文中更好地了解有关 Spark 驱动程序的 YARN 容器的故障转移过程的内部情况。

我知道 Spark Driver 将在 Yarn Container 内的 Spark Application Master 中运行。如果需要，Spark Application Master 将向 YARN 资源管理器请求资源。但是，在 Spark Application Master（和 Spark 驱动程序）的 YARN 容器失败的情况下，我无法找到有关故障转移过程的足够详细信息的文档。

我试图找出一些详细的资源，可以让我回答与以下场景相关的一些问题：如果运行 Spark Application Master / Spark Driver 的 YARN 容器的主机在 1 小时内失去网络连接：

YARN 资源管理器是否使用另一个 Spark Application Master/Spark Driver 生成一个新的 YARN 容器？
在那种情况下（产生一个新的 YARN 容器），如果 Executors 中的至少 1 个阶段已经完成并在失败之前通知原始驱动程序，它是否会从头开始启动 Spark 驱动程序？persist() 中使用的选项在这里有什么不同吗？新的 Spark Driver 是否会知道 executor 已经完成了 1 个阶段？Tachyon 会在这种情况下提供帮助吗？
如果在原始 Spark Application Master 的 YARN 容器的主机中恢复网络连接，是否会触发故障回复过程？我猜这种行为可以通过 YARN 来控制，但是我不知道在集群模式下部署 SPARK 时的默认设置是什么。

如果您能指出一些文档/网页，我将非常感激，其中详细探讨了纱线集群模式下的 Spark 架构和故障转移过程。

apache-spark hadoop hadoop-yarn alluxio

2015-01-18T12:29:23.377

0 投票

1 回答

436 浏览

apache-spark - Tachyon：在 copyFromLocal 命令期间无法重命名

我正在使用 Apache Spark 构建应用程序。为了使其他应用程序可以使用 RDD，我尝试了两种方法：

使用超光速粒子
使用火花作业服务器

我是 Tachyon 的新手。我完成了在集群上运行 Tachyon 中给出的以下任务

我可以从master:19999URL 访问 UI。

从 tachyon 目录我成功创建了一个目录./bin/tachyon tfs mkdir /Test 但是在尝试执行 copyFromLocal 命令时，我收到以下错误：

apache-spark alluxio

2015-01-21T12:17:01.080

0 投票

0 回答

317 浏览

apache-spark - spark-ec2 和 Tachyon hadoop 版本差异

我尝试使用 spark-ec2 使用 hadoop 2.x 版本启动 ec2 集群，所以我尝试了：

然后我发现在 tachyon 设置过程中有错误：

我搜索了一些相关的问题，这似乎Server IPC version 7 cannot communicate with client version 4意味着服务器正在使用 hadoop 2.x，而客户端正在使用 hadoop 1.x。但是，我使用 hadoop 2.4.0 构建了我的 spark，并且我还尝试了使用 hadoop 2.4.0 及更高版本的官方 spark 预构建版本，两者都导致相同的错误。

顺便说一句，通过设置创建的hadoop版本--hadoop-major-version=2是Hadoop 2.0.0-cdh4.2.0. 这是一个问题吗？但是我在这里尝试使用 2.4 或 2.4.0，它们都没有被识别为有效的 hadoop 版本

apache-spark hadoop amazon-ec2 alluxio spark-ec2

2015-02-11T20:27:31.203

0 投票

1 回答

342 浏览

apache-spark - 在火花工作完成后，Tachyon 自动删除了 OFF_HEAP rdd

我运行一个 spark 应用程序，它使用 StorageLevel.OFF_HEAP 来持久化一个 rdd（我的 tachyon 和 spark 都处于本地模式）。

像这样：

坚持完成后，我可以从 localhost:19999（tachyon 的 Web UI）看到我的 OFF_HEAP 文件，这是我的例外。

但是，在 spark 应用程序结束后（sc.stop，但 tachyon 正在工作），我的块（OFF_HEAP rdd）被删除了。而且我无法从 localhost:19999 找到我的文件。这不是我想要的。我认为这些文件在 persist() 方法之后属于 Tachyon（不是 spark），它们不应该被删除。

那么，谁删除了我的文件，何时删除？这是正常的方式吗？

apache-spark rdd alluxio

2015-03-14T05:07:31.210

0 投票

1 回答

852 浏览

apache-spark - Tachyon 默认情况下是否由 Apache Spark 中的 RDD 实现？

我正在尝试了解 Spark 的内存功能。在这个过程中，我遇到了Tachyon ，它基本上位于内存数据层中，它通过使用沿袭系统提供了无需复制的容错能力，并通过检查点数据集来减少重新计算。现在让人困惑的是，所有这些功能都可以通过 Spark 的标准RDD系统实现。所以我想知道 RDD 是否在幕后实现了 Tachyon 来实现这些功能？如果不是 Tachyon 的用途，它的所有工作都可以由标准 RDD 完成。还是我在将这两者联系起来时犯了一些错误？一个详细的解释或链接将是一个很大的帮助。谢谢你。

apache-spark bigdata rdd in-memory-database alluxio

2015-04-22T13:53:45.447

0 投票

2 回答

1328 浏览

apache-spark - 将 OFF_HEAP 存储与 Spark 1.4.0 和 Tachyon 0.6.4 一起使用时出错

我正在尝试使用 spark 1.4.0 和 tachyon 0.6.4 上的堆外存储来持久化我的 RDD，如下所示：

之后我得到以下异常。

有什么想法吗？

我也对文本文件进行了同样的尝试，并且能够将其保留在 tachyon 中。问题在于最初从镶木地板中读取的持久数据帧。

apache-spark apache-spark-sql alluxio

2015-05-06T20:37:23.187

0 投票

1 回答

88 浏览

apache-spark - apache-spark 部署：独立 VS 多个虚拟机

我有一台机器可以部署 Spark、Hadoop 和 Tachyon。来自 hdfs/tachyon 的 spark 操作在一个节点上是否会更快，所有内核/RAM 或多个 VM 节点均分资源？内存 < 200GB。

Spark 中广播的性能和可扩展性已经很老了，但表明网络流量的增加可能对all vs VM 的问题产生很大的负面影响。

apache-spark hadoop hdfs alluxio

2015-05-21T17:12:14.913

问题标签 [alluxio]

Reference