使用 Spark ML 转换器,我到达了DataFrame
每行如下所示的位置:
Row(object_id, text_features_vector, color_features, type_features)
其中text_features
是术语权重的稀疏向量,color_features
是一个小的 20 元素(one-hot-encoder)密集颜色向量,type_features
也是一个 one-hot-encoder 密集类型向量。
将这些特征合并到一个大数组中的好方法是什么(使用 Spark 的工具),以便我测量任何两个对象之间的余弦距离之类的东西?