2

我已经按照说明安装了 Tachyon 和 Spark:

http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html

但是,作为一个新手,我不知道如何将文件“X”放入 Tachyon 文件系统,正如他们所说:

$ ./spark-shell
$ val s = sc.textFile("tachyon-ft://stanbyHost:19998/X")
$ s.count()
$ s.saveAsTextFile("tachyon-ft://activeHost:19998/Y")

我所做的是指向一个现有文件(我通过管理 UI 找到):

scala> val s = sc.textFile("tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH")
s: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21

当我运行计数时,出现以下错误:

scala> s.count()
java.lang.NullPointerException: connectionString cannot be null

我认为我的路径是错误的。所以两个问题:

  1. 如何将文件复制到 Tachyon?

  2. 它的FS的正确路径是什么?

对不起,非常非常新手!

更新 1

我不确定是否tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH是正确的路径。我无法通过浏览器或wget

这是我在文件系统浏览器中看到的

在此处输入图像描述

4

1 回答 1

2

我发现了这个问题。我没有这样做

sc.hadoopConfiguration.set("fs.tachyon.impl", "tachyon.hadoop.TFS")

在我完成了这个练习http://ampcamp.berkeley.edu/5/exercises/tachyon.html#run-spark-on-tachyon之后,我发现正确的路径是这样的:

val file = sc.textFile("tachyon://localhost:19998/LICENSE")

所以我的设置毕竟很好。这里的文档http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html让我很困惑。

于 2015-10-12T21:19:22.333 回答