问题标签 [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Solr-spark 和 Alluxio 进行索引:无法访问 Alluxio 中的文件
我正在使用 java 将文档索引到 solr。当我索引计算机中的文件时,我的代码可以完美运行。但是当我尝试索引位于 alluxio 中的文件时,我遇到了一个异常“No fileSystem for scheme:alluxio”。我在我的 pom.xml 中添加了 alluxio 依赖项。
这是代码:
在 SparkRead 中,我从文件路径进行索引:JavaRDD 文档 = sc.textFile(pathToFile) here, pathToFile = "alluxio://XXX.XXX.XXX.XX:19998/**/"
这是错误:
hadoop - 带/不带 HDFS 的 Alluxio
我有一个使用 HDFS 作为底层存储分布式文件系统的集群,但我刚刚阅读了有关快速灵活的alluxio的信息。所以,我的问题是:我应该将Alluxio 与HDFS 一起使用还是Alluxio 是HDFS 的替代品?(我在他们的网站上看到,存储文件系统的共享存储可以是网络文件系统(NFS)。所以,我认为不需要HDFS。如果我犯了错误,请纠正我)。
在哪种模式下性能更好:HDFS with Alluxio 或 Alluxio stanalone(我的意思是,standalone 是指在集群中单独使用,而不是在本地使用)。
impala - Impala 可以在 Alluxio 上运行吗?
我尝试将 Impala 配置为在 Alluxio 之上运行,但失败了。
这是 Impala 配置:
/etc/impala/conf/core-site.xml( http://www.alluxio.org/docs/1.6/en/Running-Hadoop-MapReduce-on-Alluxio.html )
/etc/impala/conf/hive-site.xml( http://www.alluxio.org/docs/1.6/en/Running-Hive-with-Alluxio.html )
然后我启动了 Impala(impala-server, impala-catalogd, impala-state-store),但是在日志中我发现了这个:
我在 Bing 上搜索了很多,但没有运气。即使搜索关键字“alluxio 上的黑斑羚”也没有什么结果。那么 impala 可以在 alluxio 之上运行吗?任何建议将不胜感激。
我的 Impala 版本:2.10.0-cdh5.13.0 RELEASE,Alluxio 版本:alluxio-1.8.0-hadoop-2.7
apache-spark - Spark中Alluxio(Tachyon)和Tungsten的区别?
Tachyon 是一种分布式内存存储系统,与 Spark 分开开发,可在 Spark 应用程序期间用作堆外持久性存储
Tungsten 是一个新的 Spark SQL 组件,它通过直接在字节级别工作来提供更高效的 Spark 操作。由于 Tungsten 不再依赖于处理 Java 对象,我们可以使用堆上(在 JVM 中)或堆外存储
在堆外模式下,两者都减少了垃圾收集开销,因为数据不存储为 Java 对象。
那么我是否可以简单地认为 Tachyon 为一般 RDD 带来好处,而 spark-sql 从 Tungsten 中受益?
假设以下代码
hadoop - 普通身份验证失败:未为任何模拟配置用户纱线。impersonationUser:alluxio mapreduce 中的root
原因:org.apache.thrift.transport.TTransportException:普通身份验证失败:未为任何模拟配置用户纱线。模拟用户:root
当我使用 alluxio 在本地运行 wordcount 程序时,它工作正常。我也通过了集成测试,但是当我使用 alluxio 客户端 jar 运行相同的 Hadoop 程序时,它给了我一个错误
错误:alluxio.exception.status.UnavailableException:44 次尝试后无法连接到 FileSystemMasterClient @ quickstart.cloudera/172.17.0.2:19998
presto - 使用 Presto 从 Alluxio 读取时通道关闭
我在 Alluxio 上运行 Presto 查询时遇到了这个堆栈跟踪。有时我的查询能够成功,但有时它会因此错误而失败。这是什么意思,我该如何解决?
presto - 从 Alluxio 读取超时
我在 Alluxio 上执行 Presto 查询时遇到了这个错误。这个超时是什么意思,我该如何解决?
com.facebook.presto.spi.PrestoException:使用 org.apache.hadoop.mapred.TextInputFormat 打开 Hive 拆分 alluxio://xxxxx:19998/s3/data/m-00020(偏移量=134217728,长度=67108864)时出错:超时从 [id: 0x23615709, L:/xxxxx:34740 - R:xxxxx/xxxxx:29999] 读取 39963328512
apache-spark - 由于 DeadlineExceededException,Spark 作业无法写入 Alluxio
我正在运行一个 Spark 作业,写入一个有 20 个工作人员的 Alluxio 集群(Alluxio 1.6.1)。由于 .Spark 作业无法写入其输出alluxio.exception.status.DeadlineExceededException
。在 Alluxio WebUI 中,worker 仍然活着。我怎样才能避免这种失败?
hive - EMR 上的 Alluxio + Hive
我在 EMR 5.19.0 集群上安装了 Alluxio 1.8,并且可以使用/usr/local/alluxio/bin/alluxio fs ls /
.
但是,当我启动 hive 和 issue
hive> [[DDL w/ LOCATION = alluxio://master_host:19998/my_table ]]]
时,我得到以下信息:
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:java.lang.RuntimeException: java.lang.ClassNotFoundException: Class alluxio.hadoop.FileSystem not found
有没有办法克服这个问题?我尝试通过--auxpath
指向/usr/local/alluxio/client/alluxio-1.8.1-client.jar
hdfs上的jar和jar的副本来启动hive,但没有任何成功。
有什么帮助吗?
hdfs - 使用 HDFS RAMDisk 和 Alluxio 有什么区别?
既然 HDFS 支持 RAMDisk,那么使用 Alluxio 有什么好处。在我们的例子中,我们不支持在 HDFS 之外集成不同类型的底层存储。