我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像
<(af)(d)(e)(a)>
<(e)(abf)(bde)>
(af)、(abf)、(bde) 等括号中的一组项目代表什么?这是否意味着它们彼此相关或与其他事物相关
我们在什么基础上将项目归入这一元素?我正在使用一个博客文件作为数据集。
我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像
<(af)(d)(e)(a)>
<(e)(abf)(bde)>
(af)、(abf)、(bde) 等括号中的一组项目代表什么?这是否意味着它们彼此相关或与其他事物相关
我们在什么基础上将项目归入这一元素?我正在使用一个博客文件作为数据集。
顺序模式挖掘算法的输入是一个顺序数据库。序列是项集的有序列表。
下面是一个序列示例:
<(e)(abf)(bde)>
该序列应解释如下:
首先出现了“e”项。紧随其后的是“a”、“b”和“f”。这些项目之后同时出现“b”、“d”和“e”。
所以答案是括号之间的项目被假定为无序或同时发生。括号之间的项目称为“项目集”。
请注意,还假设在一个项目集中没有项目可以出现多次。因此,拥有诸如 (aab) 之类的项集是非法的
此外,您还应该知道,大多数顺序模式挖掘算法都假设项集中的项是按词法排序的(例如 PrefixSpan)。如果项目在项目集中没有按词法排序,则算法可能无法提供良好的结果,因为它们使用了一些采用此假设的优化。
如果你想尝试一些顺序模式挖掘算法,你可以看看 SPMF 软件:http ://www.philippe-fournier-viger.com/spmf/ 它提供了一个图形用户界面和许多示例(我是项目创始人)。
希望这能很好地回答你的问题。