问题标签 [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - spark persist MEMOERY_AND_DISK 与 Tachyon
我想确保我了解超光速粒子。使用带有 hdfs 的 Tachyon 或多或少等同于使用 MEMORY_AND_DISK 持久化 RDD。在这两种情况下,当数据量超出内存时,它们就会被撞到硬盘上。
我了解由于 jvm 垃圾收集导致的性能差异。我只是在询问过度溢出行为。
apache-spark - 使用 Spark 在表中增量存储 Spark 流窗口的最有效方法
我想使用火花流将事件窗口插入到每日表中,同时使该表始终保持最新到最后一秒。
基本上我有这个火花1.4.1:
然而,随着时间的推移,这会变慢,正如我在日志中看到的那样,在每次插入时,所有先前的部分都被打开(阅读我假设的镶木地板页脚)
我尝试了以下方法,但这会使刷新速度变慢。
parquet.enable.summary-metadata false spark.sql.hive.convertMetastoreParquet.mergeSchema false
这种情况下最好的设置是什么?
(只要我能满足要求,我对使用的东西非常灵活)
apache-spark - 分布式缓存和 Tachyon 有什么区别?
分布式缓存是一种存储常见请求并实现快速检索的方法。
Tachyon是一个以内存为中心的分布式存储文件系统,避免去磁盘加载频繁读取的数据集。
这两者有什么不同?
scala - 用 Tachyon 测试 Spark
我已经按照说明安装了 Tachyon 和 Spark:
http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html
但是,作为一个新手,我不知道如何将文件“X”放入 Tachyon 文件系统,正如他们所说:
我所做的是指向一个现有文件(我通过管理 UI 找到):
当我运行计数时,出现以下错误:
我认为我的路径是错误的。所以两个问题:
如何将文件复制到 Tachyon?
它的FS的正确路径是什么?
对不起,非常非常新手!
更新 1
我不确定是否tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH
是正确的路径。我无法通过浏览器或wget
这是我在文件系统浏览器中看到的
scala - 简单的 Tachyon 示例失败,在 GCE 的 underFSStorage 中“重命名失败”
运行一个简单的示例时,我收到此错误。
我尝试更改权限并使用不同的目录。
有任何想法吗?
我在下面的回答实际上并没有解决这个问题。这只是使用 HDFS 作为 UnderFS 的一种解决方法。
我这里的配置使用本地文件系统:
scala - Tachyon 上 Dataproc 主复制错误
我有一个在安装了 Tachyon、Spark 和 Hadoop 的 Dataproc 主节点上运行的简单示例。
我从 Spark 写入 Tachyon 时出现复制错误。有没有办法指定它不需要复制?
我打印的日志部分只是一个警告,但会立即出现 Spark 错误。
我检查了Tachyon 配置文档,发现了可能导致此问题的原因:
鉴于这一切都在 Dataproc 主节点上,预装了 Hadoop 并且 HDFS 与 Spark 一起工作,我认为这是可以从 Tachyon 内部解决的问题。
alluxio - Tachyon Doesn't Seem to be Aware of Available Memory
Just to see if Tachyon would give me an error about configured memory being more than available I set:
And observed the allocation in the web UI without error.
Is some of the info going to be pushed to disk when available RAM is exceeded?
What happens when it exceeds disk space? Dropped file errors or system failure?
java - 如何在 Tachyon 中设置文件的 TTL
我看到在Tachyon 配置中有一个键tachyon.master.ttlchecker.interval.ms
(“时间间隔(以毫秒为单位)定期删除具有过期 ttl 值的文件。”)但我已经查看了所有内容,找不到设置 Tachyon 文件的 TTL 值的方法.
如何设置 Tachyon 文件的 TTL(最好来自 java/scala 程序)?
apache-spark - 是否可以防止 Tachyon 写入 underFS?
是否可以防止 Tachyon 写入 underFS ?我希望它只将数据存储在内存驱动器上并省略将它们写入underFS。是否可能或支持?
问候,迈克
apache-spark - 如何为 Spark-Tachyon 集成启用基于血统的容错?
我正在尝试使用 Tachyon 实现 RDD/Dataframe 共享。据我了解,使用 HDFS underFS,写入是异步的(在后台发生对 HDFS 的复制),因此应该更快,但在我的测试中,我发现使用 HDFS underFS 的 Tachyon 的写入速度要慢 2-6 倍。
从这篇 Tachyon 论文中,我看到:
“我们在 Spark 和 MapReduce 集成中使 [基于血统的容错] 可配置”
如何让 Spark 在 Tachyon 中使用基于沿袭的容错?
注意:我使用 Spark Dataframe 方法df.write.parquet
和 RDD 方法rdd.saveAsObjectFile
将我的 Dataframes/RDD 保存到 Tachyon。