0

我正在实施一个小型 CRM 系统。预测和发现机会和趋势的数据挖掘概念对于此类系统至关重要。一种数据挖掘方法是聚类。这是一个非常小的 CRM 项目,使用 java 提供从数据库中检索信息的接口。

我的问题是,当我将客户插入数据库时​​,我有一个文本字段,允许客户在进入数据库的途中被标记,即注册点。

您会将标记技术视为聚类吗?如果是这样,这是一种数据挖掘技术吗?

我确信有复杂的 API,例如允许数据挖掘的 Java Data Mining API。但是为了我的项目,我只是想知道使用诸如 stackoverflow 之类的关键字标记用户是否允许在发布问题上标记关键字是一种数据挖掘形式,因为通过这些标记的单词,人们可以通过搜索轻松找到趋势和模式。

4

1 回答 1

1

简而言之,是的,标签是额外的信息,可以使以后更容易进行数据挖掘。

不过,它们可能还不够。标签链接到实体,根据您计算它们的方式,它们可能不会显示不同实体之间的有趣关系。使用您的标记系统,我看到的唯一可用关系是“具有相同的标记”,这可能还不够。

可以使用社区检测技术对使用您的数据和实体之间的关系构建的图进行聚类。这个例子是在 Python 中并使用 networkx 库,但它可能会让你知道我在说什么:http://perso.crans.org/aynaud/communities/

于 2013-03-07T09:31:44.173 回答