我有一个相当大的类别表,其中包含 1500 个类别(一些单词其他包含多个),我正在寻找通过标题将新产品与这些类别匹配的最佳方法。
我一直在研究使用正则表达式并在产品描述中循环搜索关键词,但这在尝试一次添加一千多个产品时效率不高,我也一直在研究全文搜索(FREETEXT 和包含)但 FreeText 搜索似乎带回了很多结果,因为它匹配产品描述中的任何和所有单词。
有没有人做过类似的事情,试图通过描述来自动化产品属于哪个类别,并且可以提供一些建议或指示?
我有一个相当大的类别表,其中包含 1500 个类别(一些单词其他包含多个),我正在寻找通过标题将新产品与这些类别匹配的最佳方法。
我一直在研究使用正则表达式并在产品描述中循环搜索关键词,但这在尝试一次添加一千多个产品时效率不高,我也一直在研究全文搜索(FREETEXT 和包含)但 FreeText 搜索似乎带回了很多结果,因为它匹配产品描述中的任何和所有单词。
有没有人做过类似的事情,试图通过描述来自动化产品属于哪个类别,并且可以提供一些建议或指示?
所以我理解的问题是,给出一个描述告诉我这个描述适用于哪个类别?
做这种工作的一个常用方法是建立一个朴素贝叶斯分类过程,并把你所有的描述都放在这个过程中。
像这样的分类通常分两个阶段进行。
阶段 1:已知的描述/类别对用于“训练”分类器。
阶段 2:一旦分类器被训练,你可以给它未知数据,然后它会返回描述匹配给定类别的概率。
这种方法中的分类器通常非常准确,但考虑到我们正在处理统计数据,错误通常会潜入