问题标签 [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 无法在 IDE 中访问 Alluxio 文件系统 API
我正在尝试在 IDE 的 scala 代码中访问 alluxio 中的文件,但出现此错误Exception in thread "main" java.io.IOException: No FileSystem for scheme: alluxio
我的代码如下,
pom.xml:
我可以通过 Shell 访问 Spark Installed 目录中的 alluxio 文件系统。如果我尝试通过 IDE 访问相同的内容,包括 POM.xml 中的上述 alluxio 依赖项,我会收到上述错误。
如果我将这个 jar `alluxio-1.8.1-client.jar' 手动放入我的构建路径中,我可以访问 alluxio 中的文件,而 IDE 本身不会出现任何错误。
我需要直接在eclipse或scala-ide中访问alluxio中的文件。
任何人都可以建议我将正确的alluxio依赖项包含在maven依赖项中吗?
alluxio - 如何监控Alluxio中的standby master的状态?
在Alluxio中,我可以通过19998端口监控leader master。但我也想监控standby master。但是standby master没有RPC端口19998,有什么办法可以监控standby master吗?我想监视进程的状态并检查进程是否正常工作。比如我想知道standby master是否及时读取journal。谢谢。
alluxio - Why does UfsSyncPathCache.java:68 parameter not work in Alluxio?
I found that UfsSyncPathCache.java:68 parameter had no effect. When I debugged after set this parameter, I found that lastSync of the path that I got from cache was always null.
It seems that the pathsToLoad of DefaultFileSystemMaster.java:3345 was always null, so the cache was never refreshed. I don't know if I set it right?
My alluxio version: 1.8.1.
Thanks.
alluxio - 关于Alluxio中level0.dirs.quota和alluxio.user.file.write.tier.default的配置问题
我设置了 level0.dirs.quota=1GB,level1.dirs.quota=10GB 和 alluxio.user.file.write.tier.default=1。那么当我使用alluxio-fuse写入超过1G的文件时,就会失败。但是如果我使用 ./bin/alluxio fs copyFromLocal 写入超过 1G 的文件,它会成功。
配置如下:
我使用alluxio-fuse命令重新挂载,然后我可以使用alluxio-fuse写入超过1G的文件。
更改alluxio.user配置后是否需要重新挂载?
但是,虽然我在设置alluxio.user.file.write.tier.default=1后可以写入超过1G的文件,但是读取超过1G的文件会失败。
谢谢,
apache-spark - 使用 Spark 和 Alluxio 管理 S3 的文件大小
我正在使用 Spark 使用 Hive parquet 分区表将 UFS 作为 S3 写入 Alluxio 中的数据。我在 Hive 分区字段上使用 repartition 函数来提高 Alluxio 中的写操作效率。这导致在 Alluxio 中创建单个文件,即在 S3 中为分区组合创建单个对象。虽然 Alluxio 具有使用 S3 的偏移量以字节为单位读取数据的功能,但最终它会缓存来自 S3 的整个文件/对象。如果文件大小增加到 TBs,它将成为 Alluxio 内存的开销。请建议如何控制文件大小。
alluxio - 每次我重新启动我的alluxio机器时,大师都无法启动
嗨,我已经部署了一个单节点 Alluxio 集群,它的工作非常好和快,但我面临的问题是每次我重新启动我的 Alluxio 机器时主节点都无法启动。收到以下错误:
2019-08-02 05:37:30,942 错误 JournalStateMachine - 致命错误:意外的日记帐分录。下一个预期的 SN 为 0,但遇到一个 SN 为 117719 的条目。完整日记条目:序列号:117719
java - 无法从 Hive 更改表位置
我能够位于和Alluxio
之间的中间层,根据Running Apache Hive with Alluxio中的教程,我尝试从 Alluxio 为存储在 HDFS 中的现有表提供服务,因为我现在正在使用它来访问数据。
这里的关键步骤是将表位置从 HDFS 和 Ceph 等分布式存储系统修改为 alluxio:Ceph
Hive
external table
4.2. 将外部表从 HDFS 移动到 Alluxio 假设 Hive 中有一个现有的外部表 u_user,其位置设置为 hdfs://namenode_hostname:port/ml-100k。您可以使用以下 HiveQL 语句来检查其“Location”属性:
hive> desc 格式化的 u_user;
然后使用以下 HiveQL 语句将表数据位置从 HDFS 更改为 Alluxio:</p>hive> 更改表 u_user 设置位置“alluxio://master_hostname:port/ml-100k”;
我使用的语句是:
但是,我收到如下错误:
通过在 WARN 日志级别打开配置单元,我们获得了更多异常详细信息:
当前call_center
表格信息如下:
欢迎任何意见,谢谢。
hadoop - Hive:修改外部表的位置需要太长时间
Hive 有 Managed Tables 和 External Tables 两种表,不同之处可以查看Managed。VS 外部表。
目前,要将外部数据库从 移动HDFS
到Alluxio
,我需要将外部表的位置修改为alluxio://
。
该声明类似于:alter table catalog_page set location "alluxio://node1:19998/user/root/tpcds/1000/catalog_returns"
根据我的理解,应该是简单的metastore修改,但是对于一些表的修改,要花上几十分钟。数据库本身包含大约 1TB 数据顺便说一句。
无论如何我可以加速表更改过程吗?如果不是,为什么这么慢?欢迎任何意见,谢谢。