问题标签 [alluxio]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
153 浏览

java - 使用 Solr-spark 和 Alluxio 进行索引:无法访问 Alluxio 中的文件

我正在使用 java 将文档索引到 solr。当我索引计算机中的文件时,我的代码可以完美运行。但是当我尝试索引位于 alluxio 中的文件时,我遇到了一个异常“No fileSystem for scheme:alluxio”。我在我的 pom.xml 中添加了 alluxio 依赖项。

这是代码:

在 SparkRead 中,我从文件路径进行索引:JavaRDD 文档 = sc.textFile(pathToFile) here, pathToFile = "alluxio://XXX.XXX.XXX.XX:19998/**/"

这是错误:

0 投票
1 回答
1102 浏览

hadoop - 带/不带 HDFS 的 Alluxio

我有一个使用 HDFS 作为底层存储分布式文件系统的集群,但我刚刚阅读了有关快速灵活的alluxio的信息。所以,我的问题是:我应该将Alluxio 与HDFS 一起使用还是Alluxio 是HDFS 的替代品?(我在他们的网站上看到,存储文件系统的共享存储可以是网络文件系统(NFS)。所以,我认为不需要HDFS。如果我犯了错误,请纠正我)。

在哪种模式下性能更好:HDFS with Alluxio 或 Alluxio stanalone(我的意思是,standalone 是指在集群中单独使用,而不是在本地使用)。

0 投票
1 回答
384 浏览

impala - Impala 可以在 Alluxio 上运行吗?

我尝试将 Impala 配置为在 Alluxio 之上运行,但失败了。

这是 Impala 配置:

/etc/impala/conf/core-site.xml( http://www.alluxio.org/docs/1.6/en/Running-Hadoop-MapReduce-on-Alluxio.html )

/etc/impala/conf/hive-site.xml( http://www.alluxio.org/docs/1.6/en/Running-Hive-with-Alluxio.html )

然后我启动了 Impala(impala-server, impala-catalogd, impala-state-store),但是在日志中我发现了这个:

我在 Bing 上搜索了很多,但没有运气。即使搜索关键字“alluxio 上的黑斑羚”也没有什么结果。那么 impala 可以在 alluxio 之上运行吗?任何建议将不胜感激。

我的 Impala 版本:2.10.0-cdh5.13.0 RELEASE,Alluxio 版本:alluxio-1.8.0-hadoop-2.7

0 投票
3 回答
1167 浏览

apache-spark - Spark中Alluxio(Tachyon)和Tungsten的区别?

Tachyon 是一种分布式内存存储系统,与 Spark 分开开发,可在 Spark 应用程序期间用作堆外持久性存储

Tungsten 是一个新的 Spark SQL 组件,它通过直接在字节级别工作来提供更高效的 Spark 操作。由于 Tungsten 不再依赖于处理 Java 对象,我们可以使用堆上(在 JVM 中)或堆外存储

在堆外模式下,两者都减少了垃圾收集开销,因为数据不存储为 Java 对象。

那么我是否可以简单地认为 Tachyon 为一般 RDD 带来好处,而 spark-sql 从 Tungsten 中受益?

假设以下代码

0 投票
1 回答
405 浏览

hadoop - 普通身份验证失败:未为任何模拟配置用户纱线。impersonationUser:alluxio mapreduce 中的root

原因:org.apache.thrift.transport.TTransportException:普通身份验证失败:未为任何模拟配置用户纱线。模拟用户:root

当我使用 alluxio 在本地运行 wordcount 程序时,它工作正常。我也通过了集成测试,但是当我使用 alluxio 客户端 jar 运行相同的 Hadoop 程序时,它给了我一个错误

错误:alluxio.exception.status.UnavailableException:44 次尝试后无法连接到 FileSystemMasterClient @ quickstart.cloudera/172.17.0.2:19998

0 投票
1 回答
113 浏览

presto - 使用 Presto 从 Alluxio 读取时通道关闭

我在 Alluxio 上运行 Presto 查询时遇到了这个堆栈跟踪。有时我的查询能够成功,但有时它会因此错误而失败。这是什么意思,我该如何解决?

0 投票
1 回答
244 浏览

presto - 从 Alluxio 读取超时

我在 Alluxio 上执行 Presto 查询时遇到了这个错误。这个超时是什么意思,我该如何解决?

com.facebook.presto.spi.PrestoException:使用 org.apache.hadoop.mapred.TextInputFormat 打开 Hive 拆分 alluxio://xxxxx:19998/s3/data/m-00020(偏移量=134217728,长度=67108864)时出错:超时从 [id: 0x23615709, L:/xxxxx:34740 - R:xxxxx/xxxxx:29999] 读取 39963328512

0 投票
1 回答
378 浏览

apache-spark - 由于 DeadlineExceededException,Spark 作业无法写入 Alluxio

我正在运行一个 Spark 作业,写入一个有 20 个工作人员的 Alluxio 集群(Alluxio 1.6.1)。由于 .Spark 作业无法写入其输出alluxio.exception.status.DeadlineExceededException。在 Alluxio WebUI 中,worker 仍然活着。我怎样才能避免这种失败?

0 投票
1 回答
372 浏览

hive - EMR 上的 Alluxio + Hive

我在 EMR 5.19.0 集群上安装了 Alluxio 1.8,并且可以使用/usr/local/alluxio/bin/alluxio fs ls /.

但是,当我启动 hive 和 issue hive> [[DDL w/ LOCATION = alluxio://master_host:19998/my_table ]]]时,我得到以下信息:

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:java.lang.RuntimeException: java.lang.ClassNotFoundException: Class alluxio.hadoop.FileSystem not found

有没有办法克服这个问题?我尝试通过--auxpath指向/usr/local/alluxio/client/alluxio-1.8.1-client.jarhdfs上的jar和jar的副本来启动hive,但没有任何成功。

有什么帮助吗?

0 投票
1 回答
127 浏览

hdfs - 使用 HDFS RAMDisk 和 Alluxio 有什么区别?

既然 HDFS 支持 RAMDisk,那么使用 Alluxio 有什么好处。在我们的例子中,我们不支持在 HDFS 之外集成不同类型的底层存储。