问题标签 [giraph]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
giraph - Apache Giraph Graph Partitioning.... 分区 p1 可以部分驻留在 worker w1 中,部分驻留在 worker w2 中吗?
我是 Apache Giraph 的新手。我的问题与 Giraph 图分区有关。据我所知,Giraph 对大图进行随机分区......可能是#partitions>#workers 以实现负载平衡。但是,我的问题是,#partitions/worker 总是一个整数吗?换句话说,分区(比如 p1)是否会部分驻留在工人 w1 和工人 w2 中?或者,p1 是否应该在 w1 或 w2 中?
java - NoClassDefFoundError 与 gradle、giraph 和 hadoop
所以,我一直在环顾四周,但我的问题没有找到一个好的答案,这让我发疯了,所以我想我会在这里问,希望我能得到帮助。我正在尝试使用 gradle 在 Giraph 项目中进行自动化测试。我是 gradle 的初学者。为了开始,我将 SimpleShortestPathComputation 类的测试代码复制到我的项目中,以确保我可以启动并运行测试。但是,当我这样做gradle test
时,我收到以下错误:
我使用的是完全标准的项目目录结构,这是我的 build.gradle 文件:
它编译没有问题,我作为依赖项包含的 jar 文件包括它说 NoClassDefFoundError 的类(根据jar tf
)。任何想法我做错了什么?提前致谢。
hadoop - Apache Giraph 中具有复杂值的顶点
我正在尝试将一些包含相关顶点信息的文本文件读入 Giraph:每一行都是
vertex_id 属性_1 属性_2 .....attribute_n
其中每个属性都是一个字符串。
目标是创建一个顶点,其中所有这些属性都是顶点值的一部分。
查找各种输入格式我找不到任何开箱即用的东西,所以我假设我必须从VertexValueInputFormat派生我的顶点输入类(我有一个单独的边缘阅读器)。
问题是:如何?我创建了一个包含 String[] 数组的 Value 类,但是如何将它交给 Giraph/Hadoop?这是单行的阅读器:
protected abstract V getValue(org.apache.hadoop.io.Text line)
当时的想法是, V 将是一个ArrayWritable,但似乎不喜欢它。
有什么线索吗?谢谢
hadoop - 部署 Giraph 时的问题
我正在尝试部署 Giraph 以运行一些示例。我遵循快速入门指南,跳过部署 Hadoop 步骤,因为我已经在我的机器上将 hadoop 设置为单个节点。但是我收到以下错误:
谁能解释我做错了什么?供参考。我有 hadoop-1.2.1 和 giraph-1.0
giraph - 读取apache giraph中的边缘列表数据集?
我正在使用SNAP数据集进行社交网络分析。SNAP 使用简单边列表作为数据格式。如何在 Apache Giraph 中读取 SNAP 数据集?
java - ClassNotFoundException 在修改后的 SimpleShortestPathsVertex 上运行 GiraphRunner
我对 Giraph 比较陌生,我正在尝试让我的 Giraph 编辑-编译-部署循环为我们的代码工作。我能够运行受http://blog.cloudera.com/blog/2014/02/how-to-write-and-run-giraph-jobs-on-hadoop/启发的各种示例,但我坚持运行我修改后的 SimpleShortestPathsVertex Giraph 示例时出现 ClassNotFoundException。我尝试了 -libjars 和 HADOOP_CLASSPATH 的各种组合,但我没有想法,非常感谢您的帮助。详情如下。
版本
- Hadoop:Hadoop 2.0.0-cdh4.4.0
- Giraph:giraph-examples-1.0.0-for-hadoop-2.0.0-alpha-jar-with-dependencies.jar
PageRankBenchmark 运行正常
GiraphRunner SimpleShortestPathsVertex 也运行良好
奖励:结果是正确的:
但是我修改后的 SimpleShortestPathsVertex 得到 ClassNotFoundException
包含修改后顶点的jar(KdlSimpleShortestPathsVertex,无包)就OK了:
但我的跑步呕吐:
我最好的猜测...
...环顾四周后,可能 GiraphRunner 没有正确处理 -libjars,正如http://grepalex.com/2013/02/25/hadoop-libjars/所暗示的那样(“确保您的代码正在使用 GenericOptionsParser” )。浏览 Giraph 源代码,我没有看到该类被访问。我尝试将 HADOOP_CLASSPATH 设置为我的 jar,但这并没有解决问题。
任何帮助都是极好的!
PageRankBenchmark 输出
SimpleShortestPathsVertex 输出
hadoop - 在 cloudera CDH5.1.0 上运行 giraph 时出错
所以,我的集群上安装了 Hadoop 2.3.0-cdh5.1.0 ......我通过以下命令编译了 giraph ......mvn clean package -DskipTests -Dhadoop=non_secure -Phadoop_2.0.0
所以,编译工作得很好,然后 pagerank 基准测试也成功了......所以,我猜giraph 编译得很好..
现在,我正在尝试运行我的代码..
我知道,它是一个不完整的命令,但它已经在抱怨.. :-/
我的 POM 文件如下所示:
我该如何解决这个问题?谢谢
hadoop - giraph/hadoop 读取清单文件
我正在尝试运行 RandomWalkWith Restart 示例https://github.com/apache/giraph/blob/release-1.0/giraph-examples/src/main/java/org/apache/giraph/examples/RandomWalkWithRestartVertex.java 我的输入是数据为 12 34 56 34 78 56 34 78 78 34
我正在跑步
但是我收到了这个错误.. :-/
为什么要读取清单文件..当我特别说它读取文件而不是目录时?
giraph - 如何仅输出图形的子集?
我有一个图形计算,它从某种类型的顶点子集开始,并通过图形将信息传播到一组目标顶点,这些目标顶点也是图形的子集。我只想输出来自这些特定顶点的信息,但我看不到在各种VertexOutputFormat子类中执行此操作的方法,这些子类似乎都面向为图中的每个顶点输出一些东西。我该怎么做呢?例如,输出阶段是否有可以过滤输出的钩子?还是我应该编写一个VertexOutputFormat实现,它不会为没有数据的顶点生成输出?提前致谢。
giraph - 如何使用其 ID 查找 Vertex?
我有一个图形计算,可以传递“访问过的”顶点 ID,我需要从输出阶段的顶点 ID 输出信息。如何从其 ID 中查找 Vertex?我找到了Partition.getVertex(),但 IIUC 不能保证任意 Vertex 将位于特定分区中。提前致谢。