我有一个列表,代表或多或少相同的产品。例如,在下面的列表中,它们都是希捷硬盘。
- 希捷硬盘 500Go
- 适用于笔记本电脑的希捷硬盘 120Go
- 希捷 Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s 硬盘
- 希捷全新闪亮 500Go 硬盘
- 希捷梭子鱼 7200.12
- 希捷 FreeAgent Desk 500GB 外置硬盘 银色 7200RPM USB2.0 零售
对于人类来说,硬盘3和5是一样的。我们可以更进一步,假设产品 1、3、4 和 5 相同,并将产品 2 和 6 放在其他类别中。
我们有一个庞大的产品清单,我想对其进行分类。有没有人知道什么是做这种事情的最佳算法。有什么建议么?
我虽然是贝叶斯分类器,但我不确定它是否是最佳选择。任何帮助,将不胜感激!
谢谢。