问题标签 [graphframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Neo4j Spark 使用图框
我最近开始使用 Neo4j-Spark-Connector 并浏览了此链接https://neo4j.com/developer/apache-spark/中提供的一些示例。在我尝试使用图形框架之前,一切似乎都有效。当我运行以下命令时:
val gdf = Neo4jGraphFrame.fromGraphX(sc,"Person",Seq("KNOWS"),"Person")
我得到错误
apache-spark - 如何在 Apache Spark 中的集群节点之间处理要独立处理的不同图形文件?
假设我有大量的图形文件,每个图形有大约 500K 边。我一直在 Apache Spark 上处理这些图形文件,我想知道如何有效地并行化整个图形处理作业。因为现在,每个图形文件都独立于任何其他文件,我正在寻找文件的并行性。所以,如果我有 100 个图形文件,我有 20 个节点集群,我是否可以在每个节点上处理每个文件,所以每个节点将处理 5 个文件。现在,正在发生的事情就像是在多个阶段中处理单个图,这导致了很多洗牌。
问题是它需要花费大量时间来处理甚至几个文件。而且我必须处理 20K 文件。每个文件有 800K 边。可能是如果可以找出数据分区策略以确保每个相关边都将在单个节点上处理,那么洗牌将会减少。
或者有效解决这个问题的最佳方法是什么?
java - 将顶点和边加载为graphFrame的dataFrame
我有两个 json 文件。这两个json文件之间存在“朋友”关系。我想使用这两个 json 文件创建顶点和边。之后我将创建graphFrame。在这里,我使用 java 和 spark。但无法理解我该怎么做。请帮忙!!
java - 如何使用java创建一个简单的spark graphframe?
基本上,我是一名 Java 开发人员,现在我有机会在 Spark 上工作,我了解了 Spark api 的基础知识,例如 SparkConfig、SparkContaxt、RDD、SQLContaxt、DataFrame、DataSet,然后我能够使用以下方法执行一些简单的简单转换RDD,SQL....但是当我尝试使用 java 锻炼一些示例图形框架应用程序时,我无法成功,我浏览了很多 youtube 教程、论坛和 stackoverflow 线程,但没有找到任何直接建议的地方或解决方案。实际上,当我尝试为 GraphFrame 类创建对象并且我已经下载了接收罐(graphframes-0.2.0-spark2.0-s_2.11.jar( 提前致谢。例外是我面临的构造函数 GraphFrame(DataFrame, DataFrame) 未定义
python - 无法运行基本的 GraphFrames 示例
尝试使用 pyspark 运行一个简单的 GraphFrame 示例。
火花版本:2.0
图框版本:0.2.0
我可以在 Jupyter 中导入图框:
当我尝试创建 GraphFrame 对象时出现此错误:
我猜python代码试图读取java类(在jar中),但似乎找不到它。任何建议如何解决这个问题?
apache-spark - 将 Spark GraphFrame 包导入 SparkR
有什么简单的方法可以在 SparkR 中包含和访问 GraphFrame?
我已通过 cmd 行包含以下软件包:
sparkr --packages graphframes:graphframes:0.2.0-spark2.0-s_2.10
,但找不到有关如何在 SparkR 中使用该包的文档。
python - 将图框与 PyCharm 一起使用
我花了将近 2 天的时间浏览互联网,但我无法解决这个问题。我正在尝试安装graphframes 包(版本:0.2.0-spark2.0-s_2.11)以通过 PyCharm 使用 spark 运行,但是,尽管我尽了最大的努力,但这是不可能的。
我几乎尝试了一切。请知道,在发布答案之前,我已经在这里检查过这个网站。
这是我试图运行的代码:
不用说,我已经尝试将 graphframes 目录(看这里以了解我所做的)包含到 spark 的 pyspark 目录中。但这似乎还不够……我尝试过的其他任何事情都失败了。希望能得到一些帮助。您可以在下面看到我收到的错误消息:
提前致谢。
python - 无法在 Windows 上使用 PySpark 运行 GraphFrames
我正在尝试使用 GraphFrames 在 Windows 上运行PySpark。
GraphFrames 快速入门指南提到以下内容 -
如果您将 GraphFrames 作为 JAR graphframes.jar 提供,则可以通过将 JAR 传递给 pyspark shell 脚本来使 GraphFrames 可用,如下所示:
是否有类似的命令(如--py-files
)在 Windows中包含.jar分发?
我尝试使用NotebookApp.file_to_run = "graphframes-0.2.0-spark1.5-s_2.10.jar",但没有奏效。还有其他方法可以在 Windows 上使用 PySpark 运行 GraphFrames 吗?TIA。
我在命令行中运行以启动 PySpark:
我尝试运行 GraphFrames 的最终命令:
scala - GraphFrames SLF4J 不可用
我正在使用 Spark 1.5.0-cdh5.5.2 运行 Scala 2.10.4,并且在运行 GraphFrames 作业时出现以下错误:
斯卡拉
我正在使用以下命令启动我的 spark-shell:
spark-shell --jars /data/spark-jars/scalalogging-slf4j_2.10-1.1.0.jar,/data/spark-jars/graphframes-0.2.0-spark1.5-s_2.10.jar
我尝试了不同版本的 scalalogging,但似乎没有任何效果。
谢谢您的帮助。