问题标签 [aws-lake-formation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
81 浏览

amazon-web-services - AWS Lake Formation 与 AWS Step Functions

引用AWS Lake Formation 文档

您在 Lake Formation 中创建工作流,并在 AWS Glue 服务中执行。Lake Formation 可以将工作流的状态作为单个实体进行跟踪。

定义工作流时,您选择它所基于的蓝图。然后,您可以按需或按计划运行工作流。

您在 Lake Formation 中创建的工作流在 AWS Glue 控制台中显示为有向无环图 (DAG)。使用 DAG,您可以跟踪工作流程的进度并执行故障排除。

这对我来说听起来很像 Step Functions。但我看到您可以使用 Step Functions 来实现数据湖

两种解决方案的权衡是什么?

0 投票
1 回答
53 浏览

amazon-web-services - 湖泊形成和红移

阅读文档后,我有一个与 Lakeformation 和 Redshift 相关的问题。是不是在使用 Lakeformation 时,消费者账户的可用数据只会通过 S3。如果这是真的,那么如果我想在生产者帐户中共享 Redshift/Postgres 数据库的信息,那么我必须先转储到 S3,然后才能与任何消费者帐户共享。

使用 Lakeformation 时,S3 是生产者和消费者之间共享信息的唯一可能方式吗

0 投票
0 回答
26 浏览

amazon-web-services - 使用 org.apache.hadoop.mapred.TextInputFormat 打开 Hive 拆分时出错:S3 路径上的权限被拒绝

当我尝试从胶水目录中查询数据时,出现以下错误:

我什至给了所有必要的 LakeFormation 权限。

0 投票
1 回答
139 浏览

python - 无法从 Jupyter 笔记本访问共享 Glue 表

我正在使用 Jupyter 笔记本从共享 Glue 表中读取数据(使用 LakeFormation)。我正在使用awswrangler图书馆。我能够从示例数据库中读取测试表。请注意,local_db下面提到的数据库是在我运行此查询的同一 AWS 账户中本地创建的。该lf_shared_table表是共享表的资源链接。

错误

任何的意见都将会有帮助。

0 投票
0 回答
38 浏览

pyspark - glueContext 找不到文件 em s3,但 SparkSession 可以。如何解决

我正在使用 LakeFormation 和 Glue Jobs 来处理一些文件。

我已经配置了湖的形成。我运行了一个爬虫,可以正确识别这两个表和各自的模式。s3 存储桶中的文件夹结构如下:

我在 Glue 中将数据库命名为“rf-raw”,爬虫识别出以下表格:

  • 企业
  • 企业经营者

但是,表格没有标题,并且数据类型被正确识别。所以,我想运行一个胶水作业来正确命名列并设置数据类型,以及其他简单的转换(一些替换)。然后,我想将转换后的文件存储在另一个 s3 存储桶中。但首先,我在 SageMaker 笔记本中测试了一些 PySpark(使用开发端点)。但是,当我运行以下脚本时:

我收到以下错误:

Caused by: java.io.FileNotFoundException: No such file or directory 'glue-d-raw-rf-t- empresas-m-r://receitafederal-udct-zen/empresas/K3241.K03200Y1.D11009.EMPRECSV'

我已经尝试为创建笔记本的 SageMakerNotebook 角色设置 s3 存储桶的权限,但没有成功。我不知道,但错误消息中显示的文件/目录有点奇怪,但我不知道它是否是胶水模式。

此外,我在同一个 SageMaker 笔记本中运行了以下代码:

sp = SparkSession.builder.getOrCreate()

`

`

csv()路径中,我将 s3 文件路径设置为s3://bucket/key. 在这种情况下,当我运行时printSchema()没有返回错误,我可以访问文件。`

为什么 GlueContext 无法获取文件?但是在同一个笔记本中我可以使用SparkSession?

谢谢

0 投票
0 回答
42 浏览

amazon-web-services - 可以将截断表反映到 Amazon Lake Formation Governed Table 吗?

我想在 Amazon RDS(MySQL) 和 Amazon Lake Formation 的受控表之间复制数据。如果我截断 MySQL 表中的数据,是否可以将其反映到受管理的表中?我查看了 Lake Formation 的控制台,但只有这六个命令;选择、插入、删除、描述、更改、删​​除。

在此处输入图像描述

0 投票
1 回答
478 浏览

amazon-s3 - S3 湖泊形成管理表和数据块增量表之间的主要区别是什么?

S3 湖泊形成管理表和数据块增量表之间的主要区别是什么?它们看起来很相似。

0 投票
0 回答
252 浏览

aws-glue - 使用 SymlinkTextInputFormat 使用 Athena 查询 Delta Lake Table

问题摘要:无法通过 AWS Athena 在 Delta Lake 表(在 S3 中)上查询数据。我相信如果帐户启用了 Lake Formation,问题就会特别发生。

复制步骤:

  • 确保您在的AWS 账户或尚未启用 Lake Formation 的账户中执行此操作。为简单起见,只需在登录帐户时使用管理员权限。
  • 上传示例 delta Lake 表。在此处获取目录的内容,并将其上传到您选择的 S3 存储桶(SSE-S3 加密)
    • 确保更新 _symlink_format_manifest/manifest 文件的内容以反映您的存储桶名称
  • 设置一个新的 Athena 表(更新下面的 $bucket 和 $prefix)
  • 查询表,会看到20行数据
  • 现在导航到 Lake Formation
    • 由于这是您第一次使用此帐户,因此您需要将自己设置为管理员
    • 转到“数据湖位置”,并将您的 S3 存储桶注册为位置
    • 为您的主体提供对 superstore_delta 表的访问权限(使用 LF 标签)
  • 再次查询 Athena 中的表。现在你会得到这个错误:

在使用 Delta Lake 表 + Lake Formation 时,还有其他人遇到过这个问题吗?

PS 如果我使用完全未加密的 S3 存储桶,即使启用了 Lake Formation,查询也有效

0 投票
1 回答
193 浏览

amazon-athena - Athena 报告“执行查询的权限不足。调用者没有对表的完全访问权限”

我拥有 Lake Formation 权限,并且我的 Athena 查询运行良好。

我现在想将 IAM 用户限制为仅限某些记录,因此我添加了 Lake Formation 数据过滤器。一旦我这样做了,雅典娜报告Insufficient permissions to execute the query. Caller does not have full access to table

这是为什么?

0 投票
0 回答
90 浏览

amazon-web-services - ErrorMessage":"Lake Formation 权限不足

我试图从 AWS Glue 控制台编辑架构。

尝试保存更改时出现以下错误。

我已经使用 Lakeformation 提供了对 s3 存储桶和表的必要访问权限。

谁能告诉我通过胶水编辑模式的最佳方法是什么?

我会收到那个错误吗?