0

我正在探索从 Spark Logs for Spark 程序中获取数据沿袭信息的选项。

我正在寻找诸如哪些 kafka 主题或 Tables Spark 程序读取或写入之类的信息,以便我们可以获得该信息的运行时间并构建端到端的数据移动流。有没有人探索过这样的框架。

当我设置 Info 日志级别时,我可以获得有关输入 kafka 读取和写入哪些数据的表的信息,但是,如果数据被发送到 Kafka 主题或输入表读取,我不会获得信息。

任何帮助表示赞赏。

感谢和问候。

4

1 回答 1

0

我通过在 Spark 程序的调试中启用日志记录级别进行了分析。您可以获得详细的事件堆栈跟踪。

你可以追踪

  1. 输入读取 Kafka 主题名称
  2. 它正在读取哪些数据库表
  3. 它正在写入哪些数据库表

问候:

于 2017-12-06T09:53:29.720 回答