问题标签 [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark Tachyon:如何删除文件?
在 Scala 中,作为一项实验,我使用 Spark 在 Tachyon 上创建了一个序列文件并将其读回。我还想使用 Spark 脚本从 Tachyon 中删除该文件。
我不太了解 Scala 语言,也找不到有关文件路径操作的参考。我确实找到了一种在 Scala 中以某种方式使用 Java 来做到这一点的方法,但我无法使用 Tachyon 让它工作。
amazon-s3 - 在文件系统下在 S3 上设置 Tachyon 时出错
我正在尝试在 S3 文件系统上设置 Tachyon。我对 Tachyon 完全陌生,并且仍在认真阅读我能找到的内容。我的 tachyon-env.sh 如下所示:
但是,当我尝试格式化 Tachyon 时,出现以下错误:
我应该更改我的 jets3t jar 文件,还是其他?这个问题可能真的很基础,但这正是我现在的水平。不过,我用 Tachyon 进行了一些基本测试。
我会很高兴有任何帮助!
alluxio - 文件系统下 s3 的 Tachyon 配置
我正在尝试在 S3 文件系统上设置 Tachyon。对于 HDFS,tachyon 有一个名为 TACHYON_UNDERFS_HDFS_IMPL 的参数,该参数设置为“org.apache.hadoop.hdfs.DistributedFileSystem”。有谁知道 S3 是否存在这样的参数?如果有,它的价值是什么?
提前感谢您的帮助!
apache-spark - 有关 Spark 驱动程序(及其 YARN 容器)在 yarn-cluster 模式下的故障转移过程如何工作的资源/文档
我试图了解在以集群模式部署 Yarn 时 Spark 驱动程序是否是单点故障。因此,我想在此上下文中更好地了解有关 Spark 驱动程序的 YARN 容器的故障转移过程的内部情况。
我知道 Spark Driver 将在 Yarn Container 内的 Spark Application Master 中运行。如果需要,Spark Application Master 将向 YARN 资源管理器请求资源。但是,在 Spark Application Master(和 Spark 驱动程序)的 YARN 容器失败的情况下,我无法找到有关故障转移过程的足够详细信息的文档。
我试图找出一些详细的资源,可以让我回答与以下场景相关的一些问题:如果运行 Spark Application Master / Spark Driver 的 YARN 容器的主机在 1 小时内失去网络连接:
YARN 资源管理器是否使用另一个 Spark Application Master/Spark Driver 生成一个新的 YARN 容器?
在那种情况下(产生一个新的 YARN 容器),如果 Executors 中的至少 1 个阶段已经完成并在失败之前通知原始驱动程序,它是否会从头开始启动 Spark 驱动程序?persist() 中使用的选项在这里有什么不同吗?新的 Spark Driver 是否会知道 executor 已经完成了 1 个阶段?Tachyon 会在这种情况下提供帮助吗?
如果在原始 Spark Application Master 的 YARN 容器的主机中恢复网络连接,是否会触发故障回复过程?我猜这种行为可以通过 YARN 来控制,但是我不知道在集群模式下部署 SPARK 时的默认设置是什么。
如果您能指出一些文档/网页,我将非常感激,其中详细探讨了纱线集群模式下的 Spark 架构和故障转移过程。
apache-spark - Tachyon:在 copyFromLocal 命令期间无法重命名
我正在使用 Apache Spark 构建应用程序。为了使其他应用程序可以使用 RDD,我尝试了两种方法:
- 使用超光速粒子
- 使用火花作业服务器
我是 Tachyon 的新手。我完成了在集群上运行 Tachyon 中给出的以下任务
我可以从master:19999
URL 访问 UI。
从 tachyon 目录我成功创建了一个目录./bin/tachyon tfs mkdir /Test
但是在尝试执行 copyFromLocal 命令时,我收到以下错误:
apache-spark - spark-ec2 和 Tachyon hadoop 版本差异
我尝试使用 spark-ec2 使用 hadoop 2.x 版本启动 ec2 集群,所以我尝试了:
然后我发现在 tachyon 设置过程中有错误:
我搜索了一些相关的问题,这似乎Server IPC version 7 cannot communicate with client version 4
意味着服务器正在使用 hadoop 2.x,而客户端正在使用 hadoop 1.x。但是,我使用 hadoop 2.4.0 构建了我的 spark,并且我还尝试了使用 hadoop 2.4.0 及更高版本的官方 spark 预构建版本,两者都导致相同的错误。
顺便说一句,通过设置创建的hadoop版本--hadoop-major-version=2
是Hadoop 2.0.0-cdh4.2.0
. 这是一个问题吗?但是我在这里尝试使用 2.4 或 2.4.0,它们都没有被识别为有效的 hadoop 版本
apache-spark - 在火花工作完成后,Tachyon 自动删除了 OFF_HEAP rdd
我运行一个 spark 应用程序,它使用 StorageLevel.OFF_HEAP 来持久化一个 rdd(我的 tachyon 和 spark 都处于本地模式)。
像这样:
坚持完成后,我可以从 localhost:19999(tachyon 的 Web UI)看到我的 OFF_HEAP 文件,这是我的例外。
但是,在 spark 应用程序结束后(sc.stop,但 tachyon 正在工作),我的块(OFF_HEAP rdd)被删除了。而且我无法从 localhost:19999 找到我的文件。这不是我想要的。我认为这些文件在 persist() 方法之后属于 Tachyon(不是 spark),它们不应该被删除。
那么,谁删除了我的文件,何时删除?这是正常的方式吗?
apache-spark - 将 OFF_HEAP 存储与 Spark 1.4.0 和 Tachyon 0.6.4 一起使用时出错
我正在尝试使用 spark 1.4.0 和 tachyon 0.6.4 上的堆外存储来持久化我的 RDD,如下所示:
之后我得到以下异常。
有什么想法吗?
我也对文本文件进行了同样的尝试,并且能够将其保留在 tachyon 中。问题在于最初从镶木地板中读取的持久数据帧。
apache-spark - apache-spark 部署:独立 VS 多个虚拟机
我有一台机器可以部署 Spark、Hadoop 和 Tachyon。来自 hdfs/tachyon 的 spark 操作在一个节点上是否会更快,所有内核/RAM 或多个 VM 节点均分资源?内存 < 200GB。
Spark 中广播的性能和可扩展性已经很老了,但表明网络流量的增加可能对all vs VM 的问题产生很大的负面影响。