显然,来自 spark 2.4 的 MLLib 的 LSHModel 支持 Spark Structured Streaming ( https://issues.apache.org/jira/browse/SPARK-24465 )。
但是,我不清楚如何。例如,可以将approxSimilarityJoin
fromMinHashLSH
转换 ( https://spark.apache.org/docs/latest/ml-features#lsh-operations ) 直接应用于流式数据帧?
我在网上找不到更多关于它的信息。有人可以帮助我吗?