尝试用 Blaze 和我的本地 Spark 实例做一些相当简单的事情。使用 blaze 的 into() 加载 csv 文件,然后使用 blaze 的 by()
Python 3.4
Spark 1.4.0
Blaze 0.8.0
csv(简单的.csv)
id,car
1,Mustang
2,Malibu
3,Mustang
4,Malibu
5,Murano
代码
mport blaze as bz
rdd = bz.into(sc,"simple.csv")
simple = bz.Data(rdd)
simple.count() #gives me 5 so far so good
bz.by(simple.car, count=simple.id.count()) #throws an error
AttributeError: 'InteractiveSymbol' object has no attribute 'car'
关于这里发生了什么的任何想法?
边注; 这行得通
simple_csv = bz.Data("simple.csv")
bz.by(simple_csv.car, count=simple_csv.id.count())
car count
0 Malibu 2
1 Murano 1
2 Mustang 2
这也是
simple_csv.car.count_values()
car count
0 Malibu 2
2 Mustang 2
1 Murano 1
一定是我将它“加载”到 Spark 中的方式,对吧?