database - 向数据库列添加注释并从 AWS Glue 检索

Question

我正在尝试将 AWS GLUE 数据目录合并到我正在构建的数据湖中。我正在使用几个不同的数据库，并希望将 COMMENTS 添加到其中一些表的列中。这些数据库包括 Redshift 和 MySql。我通常通过按照以下方式将评论添加到列中

COMMENT ON COLUMN table.column_name IS 'This is the comment';

现在我知道 Glue 有一个显示在 GUI 中的注释字段。有没有办法将 Glue 中的评论字段与我添加到数据库列中的评论同步？

score 3 · Accepted Answer

为了更新有关已在 AWS Glue 数据目录中定义的表的一些元信息，您需要使用get_table()和update_table()方法的组合，boto3例如 .

这是最天真的方法：

import boto3
from pprint import pprint

glue_client = boto3.client('glue')

database_name = "__SOME_DATABASE__"
table_name = "__SOME_TABLE__"

response = glue_client.get_table(
    DatabaseName=database_name,
    Name=table_name
)
original_table = response['Table']

这里original_table遵循由定义的响应语法get_table()。但是，我们需要从中删除一些字段，以便在我们使用update_table(). 可以通过original_table直接传递来获得允许的密钥列表，update_table()而无需任何 chagnes

allowed_keys = [
    "Name",
    "Description",
    "Owner",
    "LastAccessTime",
    "LastAnalyzedTime",
    "Retention",
    "StorageDescriptor",
    "PartitionKeys",
    "ViewOriginalText",
    "ViewExpandedText",
    "TableType",
    "Parameters"
]
updated_table = dict()
for key in allowed_keys:
    if key in original_table:
        updated_table[key] = original_table[key]

为简单起见，我们将更改表中第一列的注释

new_comment = "Foo Bar"
updated_table['StorageDescriptor']['Columns'][0]['Comment'] = new_comment

response = glue_client.update_table(
    DatabaseName=database_name,
    TableInput=updated_table
)

pprint(response)

显然，如果您想向特定列添加评论，则需要将其扩展到

new_comment = "Targeted Foo Bar"
target_column_name = "__SOME_COLUMN_NAME__"
for col in updated_table['StorageDescriptor']['Columns']:
    if col['Name'] == target_column_name:
        col['Comment'] = new_comment

response = glue_client.update_table(
    DatabaseName=database_name,
    TableInput=updated_table
)

pprint(response)

database - 向数据库列添加注释并从 AWS Glue 检索

1 回答 1

Related

Reference