场景:我创建了一个查找表(输入是大约 50 Mb 的 JSON 文件)并缓存在内存中,以便在处理输入文件的每一行(每个输入文件中大约 10000 个数据点)时可以查找它。
问题:spark 中的 dataframe.filter(...).select(...) 方法是否执行顺序搜索或哈希搜索?在这种情况下,我们如何才能更快地检索数据?另外,我想知道是否需要在其上创建索引或为其创建哈希表(如果需要,我不确定它是如何为数据帧完成的)。
场景:我创建了一个查找表(输入是大约 50 Mb 的 JSON 文件)并缓存在内存中,以便在处理输入文件的每一行(每个输入文件中大约 10000 个数据点)时可以查找它。
问题:spark 中的 dataframe.filter(...).select(...) 方法是否执行顺序搜索或哈希搜索?在这种情况下,我们如何才能更快地检索数据?另外,我想知道是否需要在其上创建索引或为其创建哈希表(如果需要,我不确定它是如何为数据帧完成的)。