我正在使用 substring 函数将条件与我的应用程序中的 pyspark join 进行比较。此函数返回列类型而不是值。
substring(trim(coalesce(df.col1)), 13, 3) returns
Column<b'substring(trim(coalesce(col1), 13, 3)'>
尝试使用 expr 但仍然得到相同的列类型结果
expr("substring(trim(coalesce(df.col1)),length(trim(coalesce(df.col1))) - 2, 3)")
我想将来自子字符串的值与另一个数据框列的值进行比较。两者都是字符串类型
pyspark:
substring(trim(coalesce(df.col1)), length(trim(coalesce(df.col1))) -2, 3) == df2["col2"]
让我们说col1 = 'abcdefghijklmno'
substring 函数的预期输出应mno
基于上述定义。