data-mining - 一个括号中的项目在顺序模式挖掘中代表什么

Question

我见过许多用于顺序模式挖掘的数据库，它们在这些数据库中采用的序列就像

<(af)(d)(e)(a)>

<(e)(abf)(bde)>

(af)、(abf)、(bde) 等括号中的一组项目代表什么？这是否意味着它们彼此相关或与其他事物相关

我们在什么基础上将项目归入这一元素？我正在使用一个博客文件作为数据集。

score 4 · Accepted Answer

顺序模式挖掘算法的输入是一个顺序数据库。序列是项集的有序列表。

下面是一个序列示例：

<(e)(abf)(bde)>

该序列应解释如下：

首先出现了“e”项。紧随其后的是“a”、“b”和“f”。这些项目之后同时出现“b”、“d”和“e”。

所以答案是括号之间的项目被假定为无序或同时发生。括号之间的项目称为“项目集”。

请注意，还假设在一个项目集中没有项目可以出现多次。因此，拥有诸如 (aab) 之类的项集是非法的

此外，您还应该知道，大多数顺序模式挖掘算法都假设项集中的项是按词法排序的（例如 PrefixSpan）。如果项目在项目集中没有按词法排序，则算法可能无法提供良好的结果，因为它们使用了一些采用此假设的优化。

如果你想尝试一些顺序模式挖掘算法，你可以看看 SPMF 软件：http ://www.philippe-fournier-viger.com/spmf/ 它提供了一个图形用户界面和许多示例（我是项目创始人）。

希望这能很好地回答你的问题。

1 回答 1