5

我们有一个客户正在寻找一种方法来导入和分类大量文本数据。必须对这些数据进行分类,并且建议最简单的方法是查看描述字段并尝试匹配其中包含的单词,以查看是否可以为该特定记录派生类别。

人们认为做到这一点的最佳方法是将单词与针对每个类别的关键词进行匹配,如果不成功,则使用某种同义词查找以查看是否可以使用它。因此,例如,如果特定记录中包含单词“automobile”,则同义词查找可以将该单词与单词“car”匹配,该单词将与类别“vehicle”相对应。

有谁知道网络服务或其他查找字典以查找特定单词的同义词的方法?项目经理建议为此购买 Google Enterprise Search 许可证,但据我所知,这并不能提供这些人正在寻找的东西。

任何其他让客户得到他们正在寻找的东西的建议都将被感激地接受。


谢谢!我将研究 Wordnet。

你知道那里有任何其他类型的文本分类软件产品吗?我看到有一些关于使用 Bayasian 算法的讨论,但我看不到任何真实世界的例子。

4

3 回答 3

7

首先想到的是Wordnet。Wordnet 是一个人工生成的单词和相关单词数据库,包括同义词。Wikipedia Wordnet 条目列出了 Wordnet 的几个接口。我相信其中一些是网络服务。您也可以自己滚动。Manning 和 Schutze 的第 5 章(免费 PDF)展示了执行此操作的方法。

话虽如此,您是否解决了正确的问题?您如何构建类别列表?是等级制度吗?标签云?请参阅Clay Shirky 的 Ontology is Overrated对分层类别的批评。我认为,如果您将分类基于单词集(例如朴素贝叶斯)而不是单个单词,那么同义词就不那么重要了。

于 2009-07-01T07:45:47.557 回答
1

你应该看看使用 WordNet。您可以访问他们的网站http://wordnet.princeton.edu/以获取更多信息,但也有可用于集成多种语言的库。

转到他们的在线工具,在此处查看它的实际使用情况:http ://wordnetweb.princeton.edu/perl/webwn 。如果您查找一个单词,然后单击每个定义旁边的“S”,您将获得与该定义语义相关的单词列表。

我还认为您应该检查允许您执行“文档集群”的软件。这是一个示例: http: //glaros.dtc.umn.edu/gkhome/cluto/cluto/overview。这应该可以帮助您引导类别创建过程。

我认为这将帮助您朝着想要的方向前进!

于 2009-07-01T07:46:22.267 回答
0

对于文本分类,您可以查看Apache Mahout

于 2009-07-06T13:39:20.927 回答