“aws-glue-spark”的相关标签问题

0 投票

1 回答

562 浏览

amazon-web-services - 将 FASTQ 文件读入 AWS Glue 作业脚本

我需要将 FASTQ 文件读入 AWS Glue 作业脚本，但出现此错误：

回溯（最后一次调用）：文件“/opt/amazon/bin/runscript.py”，第 59 行，在 runpy.run_path(script, run_name=' main ') 文件“/usr/lib64/python3.7/runpy .py”，第 261 行，在 run_path 代码中，fname = _get_code_from_file(run_name, path_name) 文件“/usr/lib64/python3.7/runpy.py”，第 236 行，在 _get_code_from_file 代码 = compile(f.read(), fname, 'exec') 文件 "/tmp/test20200930", 第 24 行 datasource0 = spark.createDataset(sc.textFile("s3://sample-genes-data/fastq/S_Sonnei_short_reads_1.fastq").sliding(4, 4 ).map { ^ SyntaxError: invalid syntax 在处理上述异常过程中，发生了另一个异常：Traceback（最近一次调用最后一次）：文件“/opt/amazon/bin/runscript.py”，第 92 行，在 while “runpy. py”在 new_stack.tb_frame.f_code 中。co_filename：AttributeError：“NoneType”对象没有属性“tb_frame”

这是我的代码：

我点击了这个链接： Read FASTQ file into a Spark dataframe

2020-09-30T14:47:26.057

0 投票

0 回答

484 浏览

aws-glue - AWS Glue - 数据沿袭和作业跟踪

有没有一种方法可以跟踪我们在 AWS Glue 中创建的每个作业正在做什么？例如，如果执行相同操作的作业被创建两次，那么在进行每次转换时数据的数据沿袭？

aws-glue aws-glue-data-catalog data-lineage aws-glue-spark aws-glue-workflow

2020-09-30T23:37:01.293

0 投票

1 回答

1057 浏览

amazon-web-services - 可以将哪些选项传递给 AWS Glue DynamicFrame.toDF()？

toDF() 方法的文档指定我们可以将选项参数传递给该方法。但它没有指定这些选项可以是什么（https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-dynamic-frame.html）。有谁知道这方面是否有进一步的文件？在从 DynamicFrame 创建 DataFrame 时，我对传递模式特别感兴趣。

amazon-web-services aws-glue aws-glue-spark

2020-10-05T19:54:34.213

0 投票

2 回答

123 浏览

metadata - AWS 胶水：在 aws 环境中部署模型

根据我们的 AWS 环境，我们有 2 种不同类型的 SAG（服务帐户组）用于数据存储。一个 SAG 用于通用存储，另一个 SAG 用于仅保存 PII 或受限数据的安全数据。在我们的环境中，我们计划部署 Glue 。在那种情况下，我们会在安全和非安全上都有一个元存储吗？如果我们需要两个元存储，这将如何与 Databricks 一起使用？如果是一个元存储，如何处理安全数据？请帮助我们了解更多详情。

metadata databricks aws-glue aws-glue-spark aws-databricks

2020-10-05T22:27:33.793

0 投票

0 回答

320 浏览

apache-spark - 在写入雪花之前是否必须将胶水动态帧转换为火花数据帧？

在写入雪花之前是否总是需要将胶水动态帧转换为火花数据帧？我在任何地方都没有找到其他方法。2000 万条记录的转换需要花费大部分时间。写作只需要2分钟。

有没有人像直接将动态框架写入雪花一样这样做？还了解到 AWS Glue 不支持 JDBC 连接到 Snowflake。因此，在作业参数中提供连接详细信息。

apache-spark jdbc snowflake-cloud-data-platform aws-glue-spark

2020-10-11T06:55:12.680

0 投票

3 回答

2763 浏览

sql-server - 在写入数据框之前从表中删除记录 - pyspark

在从数据框中将数据写入表之前，我正在尝试从表中删除记录。它不适合我......我做错了什么？

谢谢。

sql-server pyspark apache-spark-sql pyspark-dataframes aws-glue-spark

2020-10-13T22:01:34.643

0 投票

0 回答

82 浏览

amazon-web-services - aws 胶 apply_mapping 不会引发错误

嗨，我有带有这样的数据的 dynamic_frame。

然后我应用映射 df.apply_mapping(['url_link','string','url_link','string'])

列名有空格而不是下划线，但粘合作业没有失败，来自“url 链接”的所有数据都在新数据帧中进入“url_link”。这是预期的行为吗？有谁知道它是如何工作的？

amazon-web-services aws-glue aws-glue-spark

2020-10-15T13:02:40.267

0 投票

1 回答

1147 浏览

scala - 过滤后如何将数据帧写入S3

我正在尝试使用以下Scala代码在脚本编辑中以CVS格式过滤到S3后编写数据帧。

当前状态：

运行后不显示任何错误，只是不写入 S3。
日志屏幕打印开始，但是看不到打印结束。
没有指示问题的特定错误消息。
在 temp.count 处停止。

环境条件：我拥有所有 S3 的管理员权限。

scala apache-spark-sql aws-glue aws-glue-data-catalog aws-glue-spark

2020-10-17T17:27:51.157

0 投票

1 回答

480 浏览

python - 如何在 AWS 胶水中使用雪花 JDBC 连接驱动程序运行 pySpark

并得到一个错误。

src.zip/py4j/java_gateway.py”，第 1257 行，在呼叫应答中，self.gateway_client，self.target_id，self.name）文件“/opt/amazon/spark/python/lib/pyspark.zip/pyspark/sql /utils.py”，第 63 行，在 deco 中返回 f(*a, **kw) 文件“/opt/amazon/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py” ，第 328 行，get_return_value 格式（target_id，“。”，名称），值）py4j.protocol.Py4JJavaError：调用 o78.load 时发生错误。：java.lang.ClassNotFoundException：找不到数据源：雪花。请在http://spark.apache.org/third-party-projects.html找到包在 org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:194) 在 org.apache.spark 的 org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:657)。 sql.DataFrameReader.load(DataFrameReader.scala:167) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl. java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 在 py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) 在 py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357 ) 在 py4j.commands.CallCommand.execute(CallCommand.java:79) 在 py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) 在 py4j.GatewayConnection 的 py4j.Gateway.invoke(Gateway.java:282)。在 java.lang.Thread.run(Thread.java:748) 处运行 (GatewayConnection.java:238) 原因：java.lang.ClassNotFoundException: snowflake.DefaultSource at java.net.URLClassLoader.findClass(URLClassLoader.java:382)在 java.lang.ClassLoader.loadClass(ClassLoader.java:418) 在 sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:351) 在

org.apache.spark.sql.execution.datasources.DataSource$$anonfun$20$$anonfun$apply$12.apply(DataSource.scal a:634) 在

python apache-spark pyspark snowflake-task aws-glue-spark

2020-10-17T18:13:27.690

0 投票

1 回答

7748 浏览

amazon-web-services - “无法从空字符串创建路径”使用 S3 路径的配置单元中的“CREATE TABLE AS”错误

我正在尝试在 Glue 目录中创建一个表，其中包含来自使用 hive 在 EMR 中运行的 spark 的 s3 路径位置。我尝试了以下命令，但收到错误：

pyspark.sql.utils.AnalysisException：u'java.lang.IllegalArgumentException：无法从空字符串创建路径；'

sparksession.sql("CREATE TABLE IF NOT EXISTS abc LOCATION 's3://my-bucket/test/' as (SELECT * from my_table)")

sparksession.sql("CREATE TABLE abcSTORED AS PARQUET LOCATION 's3://my-bucket/test/' AS select * from my_table")

sparksession.sql("CREATE TABLE abcas SELECT * from my_table USING PARQUET LOCATION 's3://my-bucket/test/'")

有人可以建议我缺少的参数吗？

amazon-web-services pyspark hive aws-glue-data-catalog aws-glue-spark

2020-10-21T08:17:58.393

问题标签 [aws-glue-spark]

Reference