“alluxio”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

399 浏览

java - Alluxio frame size() 大于 Spark 上的 max()

我在使用 Spark 的 Alluxio 上有一个奇怪的错误。我用 Alluxio 的 Spark 读取了 20.000 个文件，它可以工作。但是我用 Alluxio 的 Spark 读取了 40.000 个文件，但它不起作用。我使用 Alluxio 1.2、Spark 1.6.0 并使用文件 API 读取数据：FileSystem fs = FileSystem.Factory.get(); AlluxioURI path = new AlluxioURI(/partition0); ...

这不是alluxio.security.authentication.type问题，因为我在本地运行 Alluxio 并且 Alluxio 主地址是正确的。我不明白为什么它不适用于 40.000 个文件，而它适用于 20.000 个文件。

我也修改了alluxio.network.thrift.frame.size.bytes.max但没有结果..

2016-08-19T14:34:38.623

0 投票

2 回答

80 浏览

apache-spark - 在单节点设置alluxio需要帮助

我正在尝试在我的本地机器上设置alluxio。按照alluxio doc

http://www.alluxio.org/docs/master/en/Running-Alluxio-Locally.html

能够看到服务。但是在检查 localhost:19999 时出错

apache-spark apache-spark-sql alluxio

2016-10-30T17:14:01.850

0 投票

1 回答

1233 浏览

apache-spark - Apache Ignite 和 Tachyon 有什么区别

我是 Apache Ignite 的新手，对于 Ignite 和 spark 的集成，看起来 Ignite 提供了一个内存层，数据将跨 Spark 应用程序存在，这是 Tachyon 作为内存文件系统提供的能力。所以，我的问题是内存文件系统（IGFS for ignite），Ignite 和 Tachyon 有什么区别？两者之间的优缺点是什么？

谢谢！

apache-spark ignite alluxio

2016-12-06T07:52:28.693

0 投票

1 回答

442 浏览

hadoop - Alluxio 错误：java.lang.IllegalArgumentException：错误的 FS

我可以使用 cloudera 提供的示例 jar 在 alluxio 上运行 wordcount，使用：

这是成功的。

但是当我使用使用附加代码创建的 jar 时无法运行它，这也是一个示例 wordcount 示例代码

上面的代码是使用 maven Pom.xml 文件构建的，包含

你能帮我在alluxio集群中运行我的wordcount程序吗？希望不要在 pom 文件中添加额外的配置来运行相同的配置。

运行我的 jar 后出现以下错误：

java.lang.IllegalArgumentException：错误的 FS：alluxio://10.30.60.45:19998/outabdf，预期：org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:657 处的 hdfs://10.30.60.45:8020 ) at org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:194) at org.apache.hadoop.hdfs.DistributedFileSystem.access$000(DistributedFileSystem.java:106) at org.apache.hadoop.hdfs.DistributedFileSystem $19.doCall(DistributedFileSystem.java:1215) at org.apache.hadoop.hdfs.DistributedFileSystem $19.doCall(DistributedFileSystem.java:1211) at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1211) at org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1412) at edu。WordCount.run(WordCount.java:47) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at edu.WordCount.main(WordCount.java:23) at sun.reflect.NativeMethodAccessorImpl.invoke0 （本机方法）在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:601 ) 在 org.apache.hadoop.util.RunJar.run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:601) at org.apache.hadoop.util.RunJar .run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:601) at org.apache.hadoop.util.RunJar .run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)

hadoop mapreduce hdfs cloudera-cdh alluxio

2016-12-23T04:43:00.990

0 投票

0 回答

152 浏览

apache-spark - 带有 oozie TFS 文件系统实现错误的 Spark 作业

我是新来的火花。我需要在 oozie 中运行 spark 作业。我可以单独运行 spark 作业，但是在作业启动后使用 oozie 我收到以下错误：

Spark 版本：spark-1.5.2-bin-hadoop2.6 Hadoop：hadoop-2.6.2 Hbase：hbase-1.1.5 Oozie：oozie-4.2.0

我的 pom.xml 的快照是：

到目前为止，我已经搜索了几个博客。我从阅读这些博客中了解到，嵌入在 spark-assembly-1.5.2-hadoop2.6.0.jar 中的 tachyon jar 存在一些问题。我尝试从 oozie 的共享库（存在于 spark 库下）中删除 tachyon-0.5.0.jar tachyon-client-0.5.0.jar，但随后我开始出现错误：

请帮我调试并解决它。

apache-spark hadoop2 oozie alluxio

2017-01-13T06:43:18.543

0 投票

1 回答

484 浏览

apache-spark - 通过 saveAsObject 保存 RDD，异常“具有不可序列化的结果：org.apache.hadoop.hbase.io.ImmutableBytesWritable”

我需要将从 HBASE 读取的 RDD 序列化到 alluxio 内存文件系统中，作为缓存和定期更新它以用于增量 SPARK 计算的方式。

代码是这样的，但遇到标题异常

谁能帮助告诉如何将 ImmutableBytesWritable 映射到另一种类型以绕过此问题？此外，地图需要是可恢复的，因为稍后我需要使用 objectFile 来读取这个保存的对象并将其转换为 [(ImmutableBytesWritable, Result)] RDD，以便稍后用于更新和计算。

apache-spark serialization hbase deserialization alluxio

2017-02-23T13:13:40.020

0 投票

1 回答

232 浏览

apache-spark - java.io.IOException：帧大小 [...] 大于最大长度 [...]！

我在独立模式下运行 Spark + Alluxio 进行数据访问。更具体地说，我有 1 个火花大师和 1 个火花工人。

运行我的工作时，我收到以下错误：

环境：

火花 1.5.2
Alluxio 1.3.0

apache-spark alluxio

2017-03-23T13:43:31.230

0 投票

2 回答

318 浏览

apache-spark - 如何将 spark RDD 转换为 mahout DRM？

我正在使用 sc.textFile() 从 Mahout 中的 Alluxio 获取数据，但它是 spark RDD。我的程序进一步使用这个 spark RDD 作为 Mahout DRM，因此我需要将 RDD 转换为 DRM。所以我当前的代码保持稳定。

apache-spark mahout alluxio

2017-04-07T05:16:32.520

0 投票

1 回答

365 浏览

apache-spark - 无法将 alluxio.security.login.username 添加到 spark-submit

我有一个火花驱动程序，我正在尝试为其设置 alluxio 用户。

我读了这篇文章：如何将 -D 参数或环境变量传递给 Spark 作业？尽管有帮助，但其中的任何方法似乎都没有奏效。

我的环境：

spark-submit 作业以 root 身份运行（在 supervisor 下），alluxio 只识别这个用户。

这是我尝试添加“-Dalluxio.security.login.username=alluxio”的地方：

spark-defaults.conf 中的 spark.driver.extraJavaOptions
在 spark-submit 的命令行上（使用 --conf）
在我的 jar 应用程序的 sparkservices conf 文件中
在我的 jar 应用程序中名为“alluxio-site.properties”的新文件中

这些工作都没有为alluxio设置用户，尽管我可以很容易地在另一个也写入alluxio的（非spark）客户端应用程序中设置这个属性。

任何人都可以将此设置应用于 spark-submit 工作？

apache-spark spark-submit alluxio

2017-04-23T13:46:39.977

0 投票

1 回答

71 浏览

apache-spark - alluxio 不跨集群分发文件

我正在为alluxio（1.4版本）使用6节点集群，但它不会在集群中分发文件，一个工作人员仅使用98％，其他工作人员使用50％-55％的主节点，仅使用18％而我' m 在所有节点的 alluxio-site.properties 文件中使用“alluxio.user.file.write.location.policy.class=alluxio.client.file.policy.MostAvailableFirstPolicy”。

apache-spark alluxio

2017-06-19T07:05:13.113

问题标签 [alluxio]

Reference