pyspark-sql - 如何列出 AWS Glue 目录中的所有数据库和表？

Question

我在 AWS Glue 控制台中创建了一个开发终端节点，现在我可以在gluepyspark 控制台中访问 SparkContext 和 SQLContext。

如何访问目录并列出所有数据库和表？平时sqlContext.sql("show tables").show()不行。

可能有帮助的是CatalogConnection 类，但我不知道它在哪个包中。我尝试从 awsglue.context 导入，但没有成功。

score 17 · Accepted Answer

我花了几个小时试图找到有关 CatalogConnection 类的一些信息，但没有找到任何东西。（即使在 aws-glue-lib 存储库中https://github.com/awslabs/aws-glue-libs）

就我而言，我需要 Glue Job Script 控制台中的表名

最后，我使用了 boto 库并使用 Glue 客户端检索了数据库和表名：

import boto3


client = boto3.client('glue',region_name='us-east-1')

responseGetDatabases = client.get_databases()

databaseList = responseGetDatabases['DatabaseList']

for databaseDict in databaseList:

    databaseName = databaseDict['Name']
    print '\ndatabaseName: ' + databaseName

    responseGetTables = client.get_tables( DatabaseName = databaseName )
    tableList = responseGetTables['TableList']

    for tableDict in tableList:

         tableName = tableDict['Name']
         print '\n-- tableName: '+tableName

重要的是正确设置区域

参考：get_databases - http://boto3.readthedocs.io/en/latest/reference/services/glue.html#Glue.Client.get_databases

get_tables - http://boto3.readthedocs.io/en/latest/reference/services/glue.html#Glue.Client.get_tables

score 10 · Accepted Answer

Glue 每个响应返回一页。如果您有超过 100 个表，请确保您使用NextToken来检索所有表。

def get_glue_tables(database=None):
    next_token = ""

    while True:
        response = glue_client.get_tables(
            DatabaseName=database,
            NextToken=next_token
        )

        for table in response.get('TableList'):
            print(table.get('Name'))

        next_token = response.get('NextToken')

        if next_token is None:
            break

score 4 · Accepted Answer

boto3 api 也支持分页，因此您可以使用以下内容：

import boto3

glue = boto3.client('glue')
paginator = glue.get_paginator('get_tables')
page_iterator = paginator.paginate(
    DatabaseName='database_name'   
)

for page in page_iterator:
    print(page['TableList'])

这样你就不必搞乱 while 循环或下一个标记。

pyspark-sql - 如何列出 AWS Glue 目录中的所有数据库和表？

3 回答 3

Related

Reference