在 Pyspark(一种 Spark/Hadoop 输入语言)中:我想在数据集中查找关键字,例如“SJC”,并从与找到关键字“SJC”的行对应的第二列返回文本。
例如,以下数据集读取:
[年份] [延误] [目的地] [航班#]
|1987| |-5| |SJC| |500|
|1987| |-5| |SJC| |250|
|1987| |07| |旧金山| |700|
|1987| |09| |SJC| |350|
|1987| |-5| |SJC| |650|
我希望能够查询“SJC”并将 [Delay] 值作为列表或字符串返回。
我已经走了这么远,但没有运气:
import sys
from pyspark import SparkContext
logFile = "hdfs://<ec2 host address>:9000/<dataset folder (on ec2)>"
sc = SparkContext("local", "simple app")
logData = sc.textFile(logFile).cache()
numSJC = logData.filter(lambda line: 'SJC' in line).first()
print "Lines with SJC:" + ''.join(numSJC)
谢谢您的帮助!