我有一条简单的线:
line = "Hello, world"
我想将它转换为只有一个元素的 RDD。我努力了
sc.parallelize(line)
但它得到:
sc.parallelize(line).collect()
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd']
有任何想法吗?
我有一条简单的线:
line = "Hello, world"
我想将它转换为只有一个元素的 RDD。我努力了
sc.parallelize(line)
但它得到:
sc.parallelize(line).collect()
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd']
有任何想法吗?
尝试使用 List 作为参数:
sc.parallelize(List(line)).collect()
它返回
res1: Array[String] = Array(hello,world)
下面的代码在 Python 中运行良好
sc.parallelize([line]).collect()
['Hello, world']
在这里,我们将参数“line”作为列表传递。
使用以下代码:
sc.parallelize(Seq(line))