5

我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像

<(af)(d)(e)(a)>

<(e)(abf)(bde)>

(af)、(abf)、(bde) 等括号中的一组项目代表什么?这是否意味着它们彼此相关或与其他事物相关

我们在什么基础上将项目归入这一元素?我正在使用一个博客文件作为数据集。

4

1 回答 1

4

顺序模式挖掘算法的输入是一个顺序数据库。序列是项集的有序列表。

下面是一个序列示例:

<(e)(abf)(bde)>

该序列应解释如下:

首先出现了“e”项。紧随其后的是“a”、“b”和“f”。这些项目之后同时出现“b”、“d”和“e”。

所以答案是括号之间的项目被假定为无序或同时发生。括号之间的项目称为“项目集”。

请注意,还假设在一个项目集中没有项目可以出现多次。因此,拥有诸如 (aab) 之类的项集是非法的

此外,您还应该知道,大多数顺序模式挖掘算法都假设项集中的项是按词法排序的(例如 PrefixSpan)。如果项目在项目集中没有按词法排序,则算法可能无法提供良好的结果,因为它们使用了一些采用此假设的优化。

如果你想尝试一些顺序模式挖掘算法,你可以看看 SPMF 软件:http ://www.philippe-fournier-viger.com/spmf/ 它提供了一个图形用户界面和许多示例(我是项目创始人)。

希望这能很好地回答你的问题。

于 2013-06-06T03:14:57.137 回答