问题标签 [aws-glue-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
562 浏览

amazon-web-services - 将 FASTQ 文件读入 AWS Glue 作业脚本

我需要将 FASTQ 文件读入 AWS Glue 作业脚本,但出现此错误:

回溯(最后一次调用):文件“/opt/amazon/bin/runscript.py”,第 59 行,在 runpy.run_path(script, run_name=' main ') 文件“/usr/lib64/python3.7/runpy .py”,第 261 行,在 run_path 代码中,fname = _get_code_from_file(run_name, path_name) 文件“/usr/lib64/python3.7/runpy.py”,第 236 行,在 _get_code_from_file 代码 = compile(f.read(), fname, 'exec') 文件 "/tmp/test20200930", 第 24 行 datasource0 = spark.createDataset(sc.textFile("s3://sample-genes-data/fastq/S_Sonnei_short_reads_1.fastq").sliding(4, 4 ).map { ^ SyntaxError: invalid syntax 在处理上述异常过程中,发生了另一个异常:Traceback(最近一次调用最后一次):文件“/opt/amazon/bin/runscript.py”,第 92 行,在 while “runpy. py”在 new_stack.tb_frame.f_code 中。co_filename:AttributeError:“NoneType”对象没有属性“tb_frame”

这是我的代码:

我点击了这个链接: Read FASTQ file into a Spark dataframe

0 投票
0 回答
484 浏览

aws-glue - AWS Glue - 数据沿袭和作业跟踪

有没有一种方法可以跟踪我们在 AWS Glue 中创建的每个作业正在做什么?例如,如果执行相同操作的作业被创建两次,那么在进行每次转换时数据的数据沿袭?

0 投票
1 回答
1057 浏览

amazon-web-services - 可以将哪些选项传递给 AWS Glue DynamicFrame.toDF()?

toDF() 方法的文档指定我们可以将选项参数传递给该方法。但它没有指定这些选项可以是什么(https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-dynamic-frame.html)。有谁知道这方面是否有进一步的文件?在从 DynamicFrame 创建 DataFrame 时,我对传递模式特别感兴趣。

0 投票
2 回答
123 浏览

metadata - AWS 胶水:在 aws 环境中部署模型

根据我们的 AWS 环境,我们有 2 种不同类型的 SAG(服务帐户组)用于数据存储。一个 SAG 用于通用存储,另一个 SAG 用于仅保存 PII 或受限数据的安全数据。在我们的环境中,我们计划部署 Glue 。在那种情况下,我们会在安全和非安全上都有一个元存储吗?如果我们需要两个元存储,这将如何与 Databricks 一起使用?如果是一个元存储,如何处理安全数据?请帮助我们了解更多详情。

0 投票
0 回答
320 浏览

apache-spark - 在写入雪花之前是否必须将胶水动态帧转换为火花数据帧?

在写入雪花之前是否总是需要将胶水动态帧转换为火花数据帧?我在任何地方都没有找到其他方法。2000 万条记录的转换需要花费大部分时间。写作只需要2分钟。

有没有人像直接将动态框架写入雪花一样这样做?还了解到 AWS Glue 不支持 JDBC 连接到 Snowflake。因此,在作业参数中提供连接详细信息。

0 投票
3 回答
2763 浏览

sql-server - 在写入数据框之前从表中删除记录 - pyspark

在从数据框中将数据写入表之前,我正在尝试从表中删除记录。它不适合我......我做错了什么?

谢谢。

0 投票
0 回答
82 浏览

amazon-web-services - aws 胶 apply_mapping 不会引发错误

嗨,我有带有这样的数据的 dynamic_frame。

然后我应用映射 df.apply_mapping(['url_link','string','url_link','string'])

列名有空格而不是下划线,但粘合作业没有失败,来自“url 链接”的所有数据都在新数据帧中进入“url_link”。这是预期的行为吗?有谁知道它是如何工作的?

0 投票
1 回答
1147 浏览

scala - 过滤后如何将数据帧写入S3

我正在尝试使用以下Scala代码在脚本编辑中以CVS格式过滤到S3后编写数据帧。

当前状态:

  • 运行后不显示任何错误,只是不写入 S3。

  • 日志屏幕打印开始,但是看不到打印结束。

  • 没有指示问题的特定错误消息。

  • 在 temp.count 处停止。

环境条件:我拥有所有 S3 的管理员权限。

0 投票
1 回答
480 浏览

python - 如何在 AWS 胶水中使用雪花 JDBC 连接驱动程序运行 pySpark

并得到一个错误。

src.zip/py4j/java_gateway.py”,第 1257 行,在呼叫应答中,self.gateway_client,self.target_id,self.name)文件“/opt/amazon/spark/python/lib/pyspark.zip/pyspark/sql /utils.py”,第 63 行,在 deco 中返回 f(*a, **kw) 文件“/opt/amazon/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py” ,第 328 行,get_return_value 格式(target_id,“。”,名称),值)py4j.protocol.Py4JJavaError:调用 o78.load 时发生错误。:java.lang.ClassNotFoundException:找不到数据源:雪花。请在http://spark.apache.org/third-party-projects.html找到包在 org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:194) 在 org.apache.spark 的 org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:657)。 sql.DataFrameReader.load(DataFrameReader.scala:167) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl. java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 在 py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) 在 py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357 ) 在 py4j.commands.CallCommand.execute(CallCommand.java:79) 在 py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) 在 py4j.GatewayConnection 的 py4j.Gateway.invoke(Gateway.java:282)。在 java.lang.Thread.run(Thread.java:748) 处运行 (GatewayConnection.java:238) 原因:java.lang.ClassNotFoundException: snowflake.DefaultSource at java.net.URLClassLoader.findClass(URLClassLoader.java:382)在 java.lang.ClassLoader.loadClass(ClassLoader.java:418) 在 sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:351) 在

org.apache.spark.sql.execution.datasources.DataSource$$anonfun$20$$anonfun$apply$12.apply(DataSource.scal a:634) 在

0 投票
1 回答
7748 浏览

amazon-web-services - “无法从空字符串创建路径”使用 S3 路径的配置单元中的“CREATE TABLE AS”错误

我正在尝试在 Glue 目录中创建一个表,其中包含来自使用 hive 在 EMR 中运行的 spark 的 s3 路径位置。我尝试了以下命令,但收到错误:

pyspark.sql.utils.AnalysisException:u'java.lang.IllegalArgumentException:无法从空字符串创建路径;'

sparksession.sql("CREATE TABLE IF NOT EXISTS abc LOCATION 's3://my-bucket/test/' as (SELECT * from my_table)")

sparksession.sql("CREATE TABLE abcSTORED AS PARQUET LOCATION 's3://my-bucket/test/' AS select * from my_table")

sparksession.sql("CREATE TABLE abcas SELECT * from my_table USING PARQUET LOCATION 's3://my-bucket/test/'")

有人可以建议我缺少的参数吗?