我有一个流,可以观察目录中多文件的输出,处理数据并将其放入 HDFS。这是我的流创建命令:
stream create --name fileHdfs --definition "file --dir=/var/log/supervisor/ --pattern=tracker.out-*.log --outputType=text/plain | logHdfsTransformer | hdfs --fsUri=hdfs://192.168.1.115:8020 --directory=/data/log/appsync --fileName=log --partitionPath=path(dateFormat('yyyy/MM/dd'))" --deploy
问题是源:文件模块将从文件读取的所有数据发送到日志处理模块,而不是每转一行,因为这样,有效负载字符串有数百万个字符,我无法处理它。前任:
--- PAYLOAD LENGTH---- 9511284
请告诉我在使用 source:file 模块时如何逐行阅读,谢谢!!!