0

问题摘要- 在 csv 字符串中搜索元素的逻辑组合,整数为 100:(所有数据都存储在 HDFS 中,以使用 Java M/R 进行处理)

例子 -

input string - 5,7,1,19001,234567,123 (unsorted csv list)

在输入字符串中搜索这些逻辑与/或的组合 -

123 and 1  

19001 or 1 or 7

整体背景——

我有一个输入数据集,每天有超过 1 亿条记录作为 HDFS 文件。输入文件有一个名为 InputIds 的列,它是一个长整数的 csv 列表。

所以一行看起来像(我将第 4 列称为 inputIds )

1\t2\t3\t45679,7890,1234567\t90\t100\t101.0.

现在我们有了一个系统,用户可以在其中创建搜索字符串来搜索输入数据。就像是 -

userCreatedID1 - 7890 and 101 

userCreatedID2 - 7890 or 90

所以在每一行的 InputIds 中搜索所有 UserCreatedIds。

谢谢

4

0 回答 0