问题标签 [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - tachyon0.8.2部署了hadoop2.6.0,但是IPC版本不匹配
现在,我想在我的 ubuntu14.04 上部署 tachyon0.8.2,我已经有 hadoop 和 spark: on master
在奴隶上
我编辑了taachyon-env.sh:
然后,我运行bin/tachyon format
and bin/tachyon-start.sh local
。我在以下位置看不到 tachyonMaster JPS
:
我在 master.logs 中看到了日志,我说:
这个问题我该怎么办?
hadoop - 在 Tachyon 上运行的字数显示 ClassNotFoundException 异常
我正在尝试在 Tachyon 上运行 Hadoop Wordcount。我跟着这个链接。但是一旦我使用以下命令运行 wordcount Jar
我得到以下错误。
我是 Tachyon 的新手。
请指教。
ssh - Deploy tachyon with Ansible without ssh connexion between servers i.e. how to format master
For the moment tachyon is deploy on local mode i.e. http://tachyon-project.org/documentation/v0.7.1/Running-Tachyon-Locally.html
My main issue here is the ssh connexion. The classic way is to do:
But I would like to not enable ssh connexion (between the servers) for the moment and only deploy services with Ansible (which have the ssh connexion authorization). So here I have to deploy all tachyon services by myself. AFAIK I have to do:
format the master and then:
The problem here is how to format the master. Is ./bin/tachyon format -s
enough? Or do I have to change tachyon script and add a formatMaster cmd?
Version: tachyon(0.7.1) with spark(1.5.1) on a Ubuntu server(14.04) with Ansible(1.9.2) for deployment.
dcos - 在 DCOS (Mesosphere) 中安装 Tachyon 的说明?
我在 DCOS 中有 spark-notebook 设置。超光速粒子是生态系统的一部分。但我找不到任何关于安装 Tachyon 的 DCOS 方式说明。我可以从头开始安装它,但似乎有一些符合 DCOS 的方法来安装/注册服务?
谢谢。Ĵ
python - 在 alluxio/tachyon 中用于 Spark 的 RDD 转换的内存使用情况
假设我们从alluxio内存创建一个RDD
是否rdd2
驻留在堆上alluxio
或spark
堆上。
像(alluxio 上的两个pairRDD)这样的操作也会
pairRDD1.join(pairRDD2)
在alluxio 或spark 堆上创建一个新的RDD。
第二个问题的原因是我需要在alluxio上加入2个大型RDD。连接会使用alluxio的内存还是RDD会被拉入火花内存以进行连接(以及生成的RDD将驻留在哪里)。
apache-spark - 如何让 Tachyon 在 Spark 作业之间共享数据
我是 Tachyon 的初学者。我想在 spark 作业之间共享一些数据或 rdd。超光速粒子概述说
Tachyon 是一个开源的以内存为中心的分布式存储系统,能够以内存速度跨集群作业进行可靠的数据共享。
但我不知道如何启用它。我只知道 tachyon 可以充当 Spark 中的堆外缓存层。谢谢。
hbase - 在 Alluxio 之上运行 HBase
有没有人在 Alluxio 上成功运行 hbase?
Alluxio 的网页上没有与此事相关的 wiki... 没有 google 的结果也不幸运!
我的环境是:
- Hadoop 2.6
- HBase 0.98.20
- Alluxio 1.1.0
编辑
java.io.IOException: alluxio.exception.FileDoesNotExistException: Path /hbase/data/hbase/meta/.tabledesc does not exist
这是迄今为止我得到的最好的......
apache-spark - 在 Tachyon(alluxio) 上产生火花。帧大小 (273247862) 大于最大长度 (16777216)
我按照指南在 Alluxio 上部署 spark。当我尝试从 alluxio 加载数据以运行 rdd 操作时,
val ccc = sc.textFile("alluxio://localhost:19998/findbugs.xml")
ccc.count
错误显示如下:
java版本为1.8.0_74,spark:1.2.0;alluxio 1.2.0
这个问题困扰了我很久。
installation - 如何在openstack上安装alluxio1.2
我尝试使用 spark 和 hdfs 在 openstack 上的 VM centos 上安装 alluxio1.2,但安装不起作用。Spark 和 hdfs 已经安装并工作
是否有特殊的安装可以在一台 openstack 机器上安装 alluxio?
java - 从 Alluxio 使用 Spark java 读取多个文件很慢
我已经使用 Spark 在本地安装了 Alluxio,并且在 Alluxio 的内存中插入了 1000 个文件。
不过读取文件很慢。从 Alluxio 内存读取文件的时间等于从磁盘读取文件的时间。我不明白为什么。
我使用文件 API 读取数据:
我现在不使用 Spark,因为读取包含 1000 个文件的分区的测试非常慢......(我希望将来使用 Spark 逐个分区读取文件)。
为什么使用这种方法/库读取时间这么慢?