问题摘要- 在 csv 字符串中搜索元素的逻辑组合,整数为 100:(所有数据都存储在 HDFS 中,以使用 Java M/R 进行处理)
例子 -
input string - 5,7,1,19001,234567,123 (unsorted csv list)
在输入字符串中搜索这些逻辑与/或的组合 -
123 and 1
19001 or 1 or 7
整体背景——
我有一个输入数据集,每天有超过 1 亿条记录作为 HDFS 文件。输入文件有一个名为 InputIds 的列,它是一个长整数的 csv 列表。
所以一行看起来像(我将第 4 列称为 inputIds )
1\t2\t3\t45679,7890,1234567\t90\t100\t101.0.
现在我们有了一个系统,用户可以在其中创建搜索字符串来搜索输入数据。就像是 -
userCreatedID1 - 7890 and 101
userCreatedID2 - 7890 or 90
所以在每一行的 InputIds 中搜索所有 UserCreatedIds。
谢谢