几周前我问了一个类似的问题,但我没有正确地问这个问题。所以我在这里用更多细节重新提出这个问题,我想得到一个更面向人工智能的答案。
我有一个列表,代表或多或少相同的产品。例如,在下面的列表中,它们都是希捷硬盘。
- 希捷硬盘 500Go
- 适用于笔记本电脑的希捷硬盘 120Go
- 希捷 Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s 硬盘
- 希捷全新闪亮 500Go 硬盘
- 希捷梭子鱼 7200.12
- 希捷 FreeAgent Desk 500GB 外置硬盘 银色 7200RPM USB2.0 零售
- GE Spacemaker Laudry
- 马自达3 2010
- 马自达3 2009 2.3L
对于人类来说,硬盘3和5是一样的。我们可以更进一步,假设产品 1、3、4 和 5 相同,并将产品 2 和 6 放在其他类别中。
在我之前的问题中,有人建议我使用特征提取。当我们有一个预定义描述的小数据集(所有硬盘驱动器)时,它工作得很好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的特征提取器,它无法扩展。是否有任何机器学习算法可以帮助我实现这一目标?我能得到的描述范围很广,在第一行,可能是冰箱,然后在下一行,是硬盘。我应该尝试走神经网络路径吗?我的输入应该是什么?
感谢您的帮助!