我是 and 的新手Spark
,Scala
我正在尝试执行一项简单的任务,即从文本文件中的数据创建图形。
从文档
https://spark.apache.org/docs/0.9.0/api/graphx/index.html#org.apache.spark.graphx.Graph $@fromEdges[VD,ED]%28RDD[Edge[ED]], VD%29%28ClassTag[VD],ClassTag[ED]%29:Graph[VD,ED]
我可以看到我可以从tuples of vertices
.
我的简单文本文件如下所示,其中每个数字都是一个顶点:
v1 v3
v2 v1
v3 v4
v4
v5 v3
当我从文件中读取数据时
val myVertices = myData.map(line=>line.split(" ")) 我得到一个 RDD[Array[String]]。
我的问题是:
如果这是解决问题的正确方法,我如何将其
RDD[Array[String]]
转换为正确的格式,根据文档是RDD[(VertexId, VertexId)]
(也VertexID
必须是 long 类型,并且我正在使用字符串)是否有另一种更简单的方法可以从类似的 csv 文件结构构建图形?
任何建议都会非常受欢迎。谢谢!