我需要将 FASTQ 文件读入 AWS Glue 作业脚本,但出现此错误:
回溯(最后一次调用):文件“/opt/amazon/bin/runscript.py”,第 59 行,在 runpy.run_path(script, run_name=' main ') 文件“/usr/lib64/python3.7/runpy .py”,第 261 行,在 run_path 代码中,fname = _get_code_from_file(run_name, path_name) 文件“/usr/lib64/python3.7/runpy.py”,第 236 行,在 _get_code_from_file 代码 = compile(f.read(), fname, 'exec') 文件 "/tmp/test20200930", 第 24 行 datasource0 = spark.createDataset(sc.textFile("s3://sample-genes-data/fastq/S_Sonnei_short_reads_1.fastq").sliding(4, 4 ).map { ^ SyntaxError: invalid syntax 在处理上述异常过程中,发生了另一个异常:Traceback(最近一次调用最后一次):文件“/opt/amazon/bin/runscript.py”,第 92 行,在 while “runpy. py”在 new_stack.tb_frame.f_code 中。co_filename:AttributeError:“NoneType”对象没有属性“tb_frame”
这是我的代码:
import org.apache.spark.mllib.rdd.RDDFunctions._
datasource0 = spark.createDataset(sc.textFile("s3://sample-genes-data/fastq/S_Sonnei_short_reads_1.fastq").sliding(4, 4).map {
case Array(id, seq, _, qual) => (id, seq, qual)
}).toDF("identifier", "sequence", "quality")
datasource1 = DynamicFrame.fromDF(datasource0, glueContext, "nullv")
我点击了这个链接: Read FASTQ file into a Spark dataframe