问题标签 [aws-lake-formation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS Lake Formation 与 AWS Step Functions
您在 Lake Formation 中创建工作流,并在 AWS Glue 服务中执行。Lake Formation 可以将工作流的状态作为单个实体进行跟踪。
定义工作流时,您选择它所基于的蓝图。然后,您可以按需或按计划运行工作流。
您在 Lake Formation 中创建的工作流在 AWS Glue 控制台中显示为有向无环图 (DAG)。使用 DAG,您可以跟踪工作流程的进度并执行故障排除。
这对我来说听起来很像 Step Functions。但我看到您可以使用 Step Functions 来实现数据湖。
两种解决方案的权衡是什么?
amazon-web-services - 湖泊形成和红移
阅读文档后,我有一个与 Lakeformation 和 Redshift 相关的问题。是不是在使用 Lakeformation 时,消费者账户的可用数据只会通过 S3。如果这是真的,那么如果我想在生产者帐户中共享 Redshift/Postgres 数据库的信息,那么我必须先转储到 S3,然后才能与任何消费者帐户共享。
使用 Lakeformation 时,S3 是生产者和消费者之间共享信息的唯一可能方式吗?
amazon-web-services - 使用 org.apache.hadoop.mapred.TextInputFormat 打开 Hive 拆分时出错:S3 路径上的权限被拒绝
当我尝试从胶水目录中查询数据时,出现以下错误:
我什至给了所有必要的 LakeFormation 权限。
python - 无法从 Jupyter 笔记本访问共享 Glue 表
我正在使用 Jupyter 笔记本从共享 Glue 表中读取数据(使用 LakeFormation)。我正在使用awswrangler
图书馆。我能够从示例数据库中读取测试表。请注意,local_db
下面提到的数据库是在我运行此查询的同一 AWS 账户中本地创建的。该lf_shared_table
表是共享表的资源链接。
错误
任何的意见都将会有帮助。
pyspark - glueContext 找不到文件 em s3,但 SparkSession 可以。如何解决
我正在使用 LakeFormation 和 Glue Jobs 来处理一些文件。
我已经配置了湖的形成。我运行了一个爬虫,可以正确识别这两个表和各自的模式。s3 存储桶中的文件夹结构如下:
我在 Glue 中将数据库命名为“rf-raw”,爬虫识别出以下表格:
- 企业
- 企业经营者
但是,表格没有标题,并且数据类型被正确识别。所以,我想运行一个胶水作业来正确命名列并设置数据类型,以及其他简单的转换(一些替换)。然后,我想将转换后的文件存储在另一个 s3 存储桶中。但首先,我在 SageMaker 笔记本中测试了一些 PySpark(使用开发端点)。但是,当我运行以下脚本时:
我收到以下错误:
Caused by: java.io.FileNotFoundException: No such file or directory 'glue-d-raw-rf-t- empresas-m-r://receitafederal-udct-zen/empresas/K3241.K03200Y1.D11009.EMPRECSV'
我已经尝试为创建笔记本的 SageMakerNotebook 角色设置 s3 存储桶的权限,但没有成功。我不知道,但错误消息中显示的文件/目录有点奇怪,但我不知道它是否是胶水模式。
此外,我在同一个 SageMaker 笔记本中运行了以下代码:
sp = SparkSession.builder.getOrCreate()
`
`
在csv()
路径中,我将 s3 文件路径设置为s3://bucket/key
. 在这种情况下,当我运行时printSchema()
没有返回错误,我可以访问文件。`
为什么 GlueContext 无法获取文件?但是在同一个笔记本中我可以使用SparkSession
?
谢谢
amazon-s3 - S3 湖泊形成管理表和数据块增量表之间的主要区别是什么?
S3 湖泊形成管理表和数据块增量表之间的主要区别是什么?它们看起来很相似。
aws-glue - 使用 SymlinkTextInputFormat 使用 Athena 查询 Delta Lake Table
问题摘要:无法通过 AWS Athena 在 Delta Lake 表(在 S3 中)上查询数据。我相信如果帐户启用了 Lake Formation,问题就会特别发生。
复制步骤:
- 确保您在新的AWS 账户或尚未启用 Lake Formation 的账户中执行此操作。为简单起见,只需在登录帐户时使用管理员权限。
- 上传示例 delta Lake 表。在此处获取目录的内容,并将其上传到您选择的 S3 存储桶(SSE-S3 加密)
- 确保更新 _symlink_format_manifest/manifest 文件的内容以反映您的存储桶名称
- 设置一个新的 Athena 表(更新下面的 $bucket 和 $prefix)
- 查询表,会看到20行数据
- 现在导航到 Lake Formation
- 由于这是您第一次使用此帐户,因此您需要将自己设置为管理员
- 转到“数据湖位置”,并将您的 S3 存储桶注册为位置
- 为您的主体提供对 superstore_delta 表的访问权限(使用 LF 标签)
- 再次查询 Athena 中的表。现在你会得到这个错误:
在使用 Delta Lake 表 + Lake Formation 时,还有其他人遇到过这个问题吗?
PS 如果我使用完全未加密的 S3 存储桶,即使启用了 Lake Formation,查询也有效
amazon-athena - Athena 报告“执行查询的权限不足。调用者没有对表的完全访问权限”
我拥有 Lake Formation 权限,并且我的 Athena 查询运行良好。
我现在想将 IAM 用户限制为仅限某些记录,因此我添加了 Lake Formation 数据过滤器。一旦我这样做了,雅典娜报告Insufficient permissions to execute the query. Caller does not have full access to table
。
这是为什么?
amazon-web-services - ErrorMessage":"Lake Formation 权限不足
我试图从 AWS Glue 控制台编辑架构。
尝试保存更改时出现以下错误。
我已经使用 Lakeformation 提供了对 s3 存储桶和表的必要访问权限。
谁能告诉我通过胶水编辑模式的最佳方法是什么?
我会收到那个错误吗?