所以我设法使用 Pig XMLloader 将 2 个代表顶点和边缘数据的 XML 文件加载到 Hadoop/HDFS 中,并从中创建了 Hive 表。
我想使用这个顶点和边缘数据来创建一个基于 Spark GraphX 的图形数据库。我从 Spark GraphX 文档中了解到,除了平面文件之外,HBASE 表还可以用于获取 Spark GraphX。我找不到任何关于使用其他结构化大数据源(例如 Hive)的 Spark GraphX 文档。
但是,在 SparkSQL 中,支持 Hive 作为结构化数据的来源。SparkSQL 也支持 JSON 结构化数据。
SparkSQL 中对 Hive 的支持是否也意味着 Spark GraphX 原生支持使用 HiveContext 的 Hive?使用 JSON 源文件以 .jsonFile(name.json) 作为源来创建 VertexRDD 怎么样?