问题标签 [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Alluxio frame size() 大于 Spark 上的 max()
我在使用 Spark 的 Alluxio 上有一个奇怪的错误。我用 Alluxio 的 Spark 读取了 20.000 个文件,它可以工作。但是我用 Alluxio 的 Spark 读取了 40.000 个文件,但它不起作用。我使用 Alluxio 1.2、Spark 1.6.0 并使用文件 API 读取数据:FileSystem fs = FileSystem.Factory.get(); AlluxioURI path = new AlluxioURI(/partition0); ...
这不是alluxio.security.authentication.type
问题,因为我在本地运行 Alluxio 并且 Alluxio 主地址是正确的。我不明白为什么它不适用于 40.000 个文件,而它适用于 20.000 个文件。
我也修改了alluxio.network.thrift.frame.size.bytes.max
但没有结果..
apache-spark - 在单节点设置alluxio需要帮助
我正在尝试在我的本地机器上设置alluxio。按照alluxio doc
http://www.alluxio.org/docs/master/en/Running-Alluxio-Locally.html
能够看到服务。但是在检查 localhost:19999 时出错
apache-spark - Apache Ignite 和 Tachyon 有什么区别
我是 Apache Ignite 的新手,对于 Ignite 和 spark 的集成,看起来 Ignite 提供了一个内存层,数据将跨 Spark 应用程序存在,这是 Tachyon 作为内存文件系统提供的能力。所以,我的问题是内存文件系统(IGFS for ignite),Ignite 和 Tachyon 有什么区别?两者之间的优缺点是什么?
谢谢!
hadoop - Alluxio 错误:java.lang.IllegalArgumentException:错误的 FS
我可以使用 cloudera 提供的示例 jar 在 alluxio 上运行 wordcount,使用:
这是成功的。
但是当我使用使用附加代码创建的 jar 时无法运行它,这也是一个示例 wordcount 示例 代码
上面的代码是使用 maven Pom.xml 文件构建的,包含
你能帮我在alluxio集群中运行我的wordcount程序吗?希望不要在 pom 文件中添加额外的配置来运行相同的配置。
运行我的 jar 后出现以下错误:
java.lang.IllegalArgumentException:错误的 FS:alluxio://10.30.60.45:19998/outabdf,预期:org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:657 处的 hdfs://10.30.60.45:8020 ) at org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:194) at org.apache.hadoop.hdfs.DistributedFileSystem.access$000(DistributedFileSystem.java:106) at org.apache.hadoop.hdfs.DistributedFileSystem $19.doCall(DistributedFileSystem.java:1215) at org.apache.hadoop.hdfs.DistributedFileSystem $19.doCall(DistributedFileSystem.java:1211) at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1211) at org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1412) at edu。WordCount.run(WordCount.java:47) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at edu.WordCount.main(WordCount.java:23) at sun.reflect.NativeMethodAccessorImpl.invoke0 (本机方法)在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:601 ) 在 org.apache.hadoop.util.RunJar.run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:601) at org.apache.hadoop.util.RunJar .run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:601) at org.apache.hadoop.util.RunJar .run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)
apache-spark - 带有 oozie TFS 文件系统实现错误的 Spark 作业
我是新来的火花。我需要在 oozie 中运行 spark 作业。我可以单独运行 spark 作业,但是在作业启动后使用 oozie 我收到以下错误:
Spark 版本:spark-1.5.2-bin-hadoop2.6 Hadoop:hadoop-2.6.2 Hbase:hbase-1.1.5 Oozie:oozie-4.2.0
我的 pom.xml 的快照是:
到目前为止,我已经搜索了几个博客。我从阅读这些博客中了解到,嵌入在 spark-assembly-1.5.2-hadoop2.6.0.jar 中的 tachyon jar 存在一些问题。我尝试从 oozie 的共享库(存在于 spark 库下)中删除 tachyon-0.5.0.jar tachyon-client-0.5.0.jar,但随后我开始出现错误:
请帮我调试并解决它。
apache-spark - 通过 saveAsObject 保存 RDD,异常“具有不可序列化的结果:org.apache.hadoop.hbase.io.ImmutableBytesWritable”
我需要将从 HBASE 读取的 RDD 序列化到 alluxio 内存文件系统中,作为缓存和定期更新它以用于增量 SPARK 计算的方式。
代码是这样的,但遇到标题异常
谁能帮助告诉如何将 ImmutableBytesWritable 映射到另一种类型以绕过此问题?此外,地图需要是可恢复的,因为稍后我需要使用 objectFile 来读取这个保存的对象并将其转换为 [(ImmutableBytesWritable, Result)] RDD,以便稍后用于更新和计算。
apache-spark - java.io.IOException:帧大小 [...] 大于最大长度 [...]!
我在独立模式下运行 Spark + Alluxio 进行数据访问。更具体地说,我有 1 个火花大师和 1 个火花工人。
运行我的工作时,我收到以下错误:
环境:
- 火花 1.5.2
- Alluxio 1.3.0
apache-spark - 如何将 spark RDD 转换为 mahout DRM?
我正在使用 sc.textFile() 从 Mahout 中的 Alluxio 获取数据,但它是 spark RDD。我的程序进一步使用这个 spark RDD 作为 Mahout DRM,因此我需要将 RDD 转换为 DRM。所以我当前的代码保持稳定。
apache-spark - 无法将 alluxio.security.login.username 添加到 spark-submit
我有一个火花驱动程序,我正在尝试为其设置 alluxio 用户。
我读了这篇文章:如何将 -D 参数或环境变量传递给 Spark 作业?尽管有帮助,但其中的任何方法似乎都没有奏效。
我的环境:
spark-submit 作业以 root 身份运行(在 supervisor 下),alluxio 只识别这个用户。
这是我尝试添加“-Dalluxio.security.login.username=alluxio”的地方:
- spark-defaults.conf 中的 spark.driver.extraJavaOptions
- 在 spark-submit 的命令行上(使用 --conf)
- 在我的 jar 应用程序的 sparkservices conf 文件中
- 在我的 jar 应用程序中名为“alluxio-site.properties”的新文件中
这些工作都没有为alluxio设置用户,尽管我可以很容易地在另一个也写入alluxio的(非spark)客户端应用程序中设置这个属性。
任何人都可以将此设置应用于 spark-submit 工作?
apache-spark - alluxio 不跨集群分发文件
我正在为alluxio(1.4版本)使用6节点集群,但它不会在集群中分发文件,一个工作人员仅使用98%,其他工作人员使用50%-55%的主节点,仅使用18%而我' m 在所有节点的 alluxio-site.properties 文件中使用“alluxio.user.file.write.location.policy.class=alluxio.client.file.policy.MostAvailableFirstPolicy”。