dataframe - 是否可以将自定义类对象作为列值存储在 Spark Data Frame 中？

Question

我正在使用 LSH 算法研究重复文档检测问题。为了处理大规模数据，我们使用了 spark。

我有大约 300K 文档，每个文档至少 100-200 字。在 Spark 集群上，这些是我们在数据帧上执行的步骤。

运行 Spark ML 管道以将文本转换为标记。


pipeline = Pipeline().setStages([
        docAssembler,
        tokenizer,
        normalizer,
        stemmer,
        finisher,
        stopwordsRemover,
       # emptyRowsRemover
    ])
model = pipeline.fit(spark_df)
final_df = model.transform(spark_df)

对于每个文档，使用 datasketch( https://github.com/ekzhu/datasketch/ ) 库获取 MinHash 值并将其存储为新列。

final_df_limit.rdd.map(lambda x: (CalculateMinHash(x),)).toDF()

第二步失败，因为 spark 不允许我们将自定义类型值存储为列。Value 是 MinHash 类的对象。

有谁知道我如何将 Minhash 对象存储在数据框中？

score 2 · Accepted Answer

我认为不可能将 python 对象保存在 DataFrames 中，但您可以通过以下几种方式规避此问题：

存储结果而不是对象（不确定 MinHash 是如何工作的，但如果值是数字/字符串，应该很容易从类对象中提取它）。
如果这不可行，因为您仍然需要对象的某些属性，您可能希望使用Pickle对其进行序列化，将序列化结果保存为编码字符串。这会迫使您在每次要使用该对象时进行反序列化。

final_df_limit.rdd.map(lambda x: base64.encodestring(pickle.dumps(CalculateMinHash(x),))).toDF()
另一种方法可能是使用Spark MinHash 实现，但这可能不适合您的所有要求。

dataframe - 是否可以将自定义类对象作为列值存储在 Spark Data Frame 中？

1 回答 1

Related

Reference