Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有很多数据记录。(大约 15 亿条)和很多查询。(大约 1 万条)。
每条记录可以匹配多个查询。(可以通过对数据记录评估查询来确定)
记录存储在分布式数据库中。每条记录都有一个字段来存储与该数据记录匹配的查询的 ID。
我可以在大约 15 分钟内扫描所有记录。(但对数据不做任何事情)。
对于每条记录。我想用它匹配的查询 ID 标记它。没有很大的延迟(例如:1小时)。有没有一个好的算法来做到这一点?在查询上迭代每个查询不是解决方案。我认为需要某种索引。请帮忙!谢谢!
Apache Pig 默认开启了多查询。如果您的查询共享相同的数据源,那么 Pig 将并行执行它们,因此输入数据只读取一次。