问题标签 [alluxio]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
399 浏览

java - Alluxio frame size() 大于 Spark 上的 max()

我在使用 Spark 的 Alluxio 上有一个奇怪的错误。我用 Alluxio 的 Spark 读取了 20.000 个文件,它可以工作。但是我用 Alluxio 的 Spark 读取了 40.000 个文件,但它不起作用。我使用 Alluxio 1.2、Spark 1.6.0 并使用文件 API 读取数据:FileSystem fs = FileSystem.Factory.get(); AlluxioURI path = new AlluxioURI(/partition0); ...

这不是alluxio.security.authentication.type问题,因为我在本地运行 Alluxio 并且 Alluxio 主地址是正确的。我不明白为什么它不适用于 40.000 个文件,而它适用于 20.000 个文件。

我也修改了alluxio.network.thrift.frame.size.bytes.max但没有结果..

0 投票
2 回答
80 浏览

apache-spark - 在单节点设置alluxio需要帮助

我正在尝试在我的本地机器上设置alluxio。按照alluxio doc

http://www.alluxio.org/docs/master/en/Running-Alluxio-Locally.html

能够看到服务。但是在检查 localhost:19999 时出错

0 投票
1 回答
1233 浏览

apache-spark - Apache Ignite 和 Tachyon 有什么区别

我是 Apache Ignite 的新手,对于 Ignite 和 spark 的集成,看起来 Ignite 提供了一个内存层,数据将跨 Spark 应用程序存在,这是 Tachyon 作为内存文件系统提供的能力。所以,我的问题是内存文件系统(IGFS for ignite),Ignite 和 Tachyon 有什么区别?两者之间的优缺点是什么?

谢谢!

0 投票
1 回答
442 浏览

hadoop - Alluxio 错误:java.lang.IllegalArgumentException:错误的 FS

我可以使用 cloudera 提供的示例 jar 在 alluxio 上运行 wordcount,使用:

这是成功的。

但是当我使用使用附加代码创建的 jar 时无法运行它,这也是一个示例 wordcount 示例 代码

上面的代码是使用 maven Pom.xml 文件构建的,包含

你能帮我在alluxio集群中运行我的wordcount程序吗?希望不要在 pom 文件中添加额外的配置来运行相同的配置。

运行我的 jar 后出现以下错误:

java.lang.IllegalArgumentException:错误的 FS:alluxio://10.30.60.45:19998/outabdf,预期:org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:657 处的 hdfs://10.30.60.45:8020 ) at org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:194) at org.apache.hadoop.hdfs.DistributedFileSystem.access$000(DistributedFileSystem.java:106) at org.apache.hadoop.hdfs.DistributedFileSystem $19.doCall(DistributedFileSystem.java:1215) at org.apache.hadoop.hdfs.DistributedFileSystem $19.doCall(DistributedFileSystem.java:1211) at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1211) at org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1412) at edu。WordCount.run(WordCount.java:47) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at edu.WordCount.main(WordCount.java:23) at sun.reflect.NativeMethodAccessorImpl.invoke0 (本机方法)在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:601 ) 在 org.apache.hadoop.util.RunJar.run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:601) at org.apache.hadoop.util.RunJar .run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:601) at org.apache.hadoop.util.RunJar .run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)

0 投票
0 回答
152 浏览

apache-spark - 带有 oozie TFS 文件系统实现错误的 Spark 作业

我是新来的火花。我需要在 oozie 中运行 spark 作业。我可以单独运行 spark 作业,但是在作业启动后使用 oozie 我收到以下错误:

Spark 版本:spark-1.5.2-bin-hadoop2.6 Hadoop:hadoop-2.6.2 Hbase:hbase-1.1.5 Oozie:oozie-4.2.0

我的 pom.xml 的快照是:

到目前为止,我已经搜索了几个博客。我从阅读这些博客中了解到,嵌入在 spark-assembly-1.5.2-hadoop2.6.0.jar 中的 tachyon jar 存在一些问题。我尝试从 oozie 的共享库(存在于 spark 库下)中删除 tachyon-0.5.0.jar tachyon-client-0.5.0.jar,但随后我开始出现错误:

请帮我调试并解决它。

0 投票
1 回答
484 浏览

apache-spark - 通过 saveAsObject 保存 RDD,异常“具有不可序列化的结果:org.apache.hadoop.hbase.io.ImmutableBytesWritable”

我需要将从 HBASE 读取的 RDD 序列化到 alluxio 内存文件系统中,作为缓存和定期更新它以用于增量 SPARK 计算的方式。

代码是这样的,但遇到标题异常

谁能帮助告诉如何将 ImmutableBytesWritable 映射到另一种类型以绕过此问题?此外,地图需要是可恢复的,因为稍后我需要使用 objectFile 来读取这个保存的对象并将其转换为 [(ImmutableBytesWritable, Result)] RDD,以便稍后用于更新和计算。

0 投票
1 回答
232 浏览

apache-spark - java.io.IOException:帧大小 [...] 大于最大长度 [...]!

我在独立模式下运行 Spark + Alluxio 进行数据访问。更具体地说,我有 1 个火花大师和 1 个火花工人。

运行我的工作时,我收到以下错误:

环境:

  • 火花 1.5.2
  • Alluxio 1.3.0
0 投票
2 回答
318 浏览

apache-spark - 如何将 spark RDD 转换为 mahout DRM?

我正在使用 sc.textFile() 从 Mahout 中的 Alluxio 获取数据,但它是 spark RDD。我的程序进一步使用这个 spark RDD 作为 Mahout DRM,因此我需要将 RDD 转换为 DRM。所以我当前的代码保持稳定。

0 投票
1 回答
365 浏览

apache-spark - 无法将 alluxio.security.login.username 添加到 spark-submit

我有一个火花驱动程序,我正在尝试为其设置 alluxio 用户。

我读了这篇文章:如何将 -D 参数或环境变量传递给 Spark 作业?尽管有帮助,但其中的任何方法似乎都没有奏效。

我的环境:

spark-submit 作业以 root 身份运行(在 supervisor 下),alluxio 只识别这个用户。

这是我尝试添加“-Dalluxio.security.login.username=alluxio”的地方:

  • spark-defaults.conf 中的 spark.driver.extraJavaOptions
  • 在 spark-submit 的命令行上(使用 --conf)
  • 在我的 jar 应用程序的 sparkservices conf 文件中
  • 在我的 jar 应用程序中名为“alluxio-site.properties”的新文件中

这些工作都没有为alluxio设置用户,尽管我可以很容易地在另一个也写入alluxio的(非spark)客户端应用程序中设置这个属性。

任何人都可以将此设置应用于 spark-submit 工作?

0 投票
1 回答
71 浏览

apache-spark - alluxio 不跨集群分发文件

我正在为alluxio(1.4版本)使用6节点集群,但它不会在集群中分发文件,一个工作人员仅使用98%,其他工作人员使用50%-55%的主节点,仅使用18%而我' m 在所有节点的 alluxio-site.properties 文件中使用“alluxio.user.file.write.location.policy.class=alluxio.client.file.policy.MostAvailableFirstPolicy”。