我使用 pyspark 作为代码语言。我添加了列以获取带有路径的文件名。
from pyspark.sql.functions import input_file_name
data = data.withColumn("sourcefile",input_file_name())
我只想从此列中检索带有父文件夹的文件名。请帮忙。
例子:
Inputfilename = "adl://dotdot.com/ingest/marketing/abc.json"
我正在寻找的输出是:
marketing/abc.json
注意:字符串操作我可以做。文件路径列是数据框的一部分。