我们有一个客户正在寻找一种方法来导入和分类大量文本数据。必须对这些数据进行分类,并且建议最简单的方法是查看描述字段并尝试匹配其中包含的单词,以查看是否可以为该特定记录派生类别。
人们认为做到这一点的最佳方法是将单词与针对每个类别的关键词进行匹配,如果不成功,则使用某种同义词查找以查看是否可以使用它。因此,例如,如果特定记录中包含单词“automobile”,则同义词查找可以将该单词与单词“car”匹配,该单词将与类别“vehicle”相对应。
有谁知道网络服务或其他查找字典以查找特定单词的同义词的方法?项目经理建议为此购买 Google Enterprise Search 许可证,但据我所知,这并不能提供这些人正在寻找的东西。
任何其他让客户得到他们正在寻找的东西的建议都将被感激地接受。
谢谢!我将研究 Wordnet。
你知道那里有任何其他类型的文本分类软件产品吗?我看到有一些关于使用 Bayasian 算法的讨论,但我看不到任何真实世界的例子。