Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在寻找包含 spark sql 和 delta Lake 中所有列名、表名、创建时间戳的元数据表。我需要能够按给定的列名搜索并列出所有具有该列名的表。
这在基线 Spark 中不存在。为此,您需要创建一个内部 ABaC 流程来收集流程运行的特定元数据。对于上次更新时间,您可以在运行“hadoop fs -ls”命令时解析 hadoop 中对象的时间戳;列名需要在输入“show create table”然后解析页眉和页脚时递归地运行“hive -e”进程;并使用以前的策略获取所有表名,但运行“显示表”。如果你有一个健壮的 Yarn 服务器运行所有代码,你可以获得作业的开始和结束时间,但它通常是一场噩梦。