27

I want to use some algorithms to mine my log data.

I found a pattern mining framework on: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

I have tried several algorithms, the BIDE+ algorithm performs the best.

The BIDE+ algorithm is for mining frequent closed sequential patterns from a sequence database.

Can someone explain the definition about "closed" sequential patterns and open ones?

4

3 回答 3

52

很高兴您使用我的SPMF 软件

顺序模式的支持是包含顺序模式的序列数。

频繁序列模式是至少出现在序列数据库的“minsup”序列中的模式,其中minsup用户设置的参数。

频繁闭合序列模式是一种频繁序列模式,因此它不包含在具有完全相同支持的另一个序列模式中。

PrefixSpan等算法会发现频繁的顺序模式。诸如BIDE + 之类的算法会发现频繁的闭合序列模式。BIDE+ 通常比 PrefixSpan 快得多,因为它使用修剪技术来避免生成所有顺序模式。此外,封闭模式的集合通常比顺序模式的集合小得多,因此 BIDE+ 的内存效率也更高。

另一件重要的事情是,封闭的顺序模式是所有顺序模式的紧凑且无损的表示。这意味着封闭的序列模式集通常要小得多,但它是无损的,这意味着它允许恢复完整的序列模式集(没有信息丢失),这非常方便。

我可以给你一个简单的例子。

让我们考虑4个序列:

a  b  c  d  e
a  b  d
b  e  a  
b  c  d  e

假设 minsup = 2。

b c是一个频繁的序列模式,因为它出现在两个序列中(它支持 2)。b c不是封闭的序列模式,因为它包含在b c d具有相同支持的更大的序列模式中。

b c d支持为 2。它也不是一个封闭的序列模式,因为它包含在b c d e具有相同支持的更大的序列模式中。 b c d e是一个封闭的顺序模式,因为它不包含在具有相同支持的任何其他顺序模式中。

顺便说一句,你也可以查看我关于序列模式挖掘的调查。它很好地介绍了这个主题和不同的算法。

于 2013-04-26T14:54:22.040 回答
2

查看有关频繁项集和频繁项集挖掘和关联规则的本章

于 2013-04-25T18:42:34.607 回答
1

谷歌搜索“封闭频繁项集”。将有很多页面解释这一点,任何数据挖掘书籍(查找 APRIORI 算法)也是如此。

“封闭”表示没有更大的项集具有相同的支持。可以有更大的项集,但它们必须具有较低的支持度。

对于大多数用例,仅查看最大项集或封闭项集就足够了。

于 2013-04-23T07:59:42.537 回答