我有一个问题要解决,想知道我是否正确使用 Hadoop 之类的东西来解决这个问题,将它分布在多个节点上或使用其他东西。
问题:
我有一个非常大的数据库表,其中可能包含大量记录,每条记录都有关联的元数据字段(表示为表上的一列)和值。我想要达到的是:
给定特定条件,例如搜索元数据字段 X 和值 Y 的记录,我想检索一些记录,但更重要的是,我想向用户提出一些关于下一步要搜索什么的智能建议,以便他们可以找到一些他们不知道的有趣记录。我计划这样做的方式是检查所有匹配的记录元数据字段和值,并向用户提供有趣的选择以继续进行过滤(确定什么是有趣的任务与这个问题无关)。
现在,如果我的表有大量记录,并且初始“过滤器”与很多记录匹配,那么检索所有记录然后扫描它们的其他列以获取建议,如果全部完成,可能需要很长时间比如说一个查询,甚至是迭代查询以增量获取越来越多的记录。
我在想这个问题可以通过将任务分配到多个节点来搜索不同的记录来解决。我的问题是,我应该为此研究 Hadoop 之类的东西(分配负载),还是有人可以提出其他方法来完成这项任务?
谢谢
丹尼尔