我正在考虑合并(和重复删除)多个产品目录的策略。
我将使用一个 no-sql 数据库,并且需要查询 N个部分重叠产品的目录。
分类、标签、描述等某些方面需要规范化,我需要跟踪哪些目录包含每个唯一项目(例如,通过 UPC 对每个目录中的产品进行重复数据删除)。
我目前的想法是将各个目录导入到他们自己的表中,然后使用自建算法来识别“相似”项目,执行规范化,然后创建一个包含规范化和去重数据的最终“主”表——(主记录值将从它选择的任何目录或目录组合中复制,并包含指向包含该项目的目录的链接)。
我想知道关于这个主题还有哪些其他想法?我应该研究哪些研究领域来更好地教育自己?