我正在尝试构建一个搜索引擎,该引擎可以浏览在线车辆分类,例如 Oodle、eBay 汽车和 craigslist。我还有一个包含标准车辆名称和规格的大型数据库。我想做的是对于我通过分类网站找到的每条记录,能够准确地确定它是什么车型、款式(来自我的数据库)。例如,我的数据库中福特卡车的标准名称是:2003 Ford F150。
然而,在分类网站上,人们可能将其称为:“2003 Ford F 150”或“2003 Ford f-150”或“03 Ford truck 150”。是否有有效的数据挖掘/文本分类算法能够将这些文本标准化为上述标准名称?