问题标签 [pattern-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3091 浏览

data-mining - “顺序模式挖掘”和“顺序规则挖掘”有什么区别

非常强大的开源数据挖掘工具 SPMF 的文档分别列出了它们:

http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

有谁知道为什么?

0 投票
1 回答
1133 浏览

r - R 中的 Apriori,arulesSequences:它是否支持“篮子”序列(单次购物行程中的订单无关紧要)?

我开始使用 arulesSequences,目的是对我拥有的一些数据执行频繁序列挖掘。商店 A 的数据如下所示:

CUSTOMER_ID seq_num 购买的商品尺寸

1 17399 1 2 {100,100}

2 17399 2 1 {800}

3 17399 3 2 {900,900}

4 17399 4 1 {405}

5 17399 5 4 {200,505,200,505}

这意味着这个顾客 #17399 多次在这家商店 A 购物。在他/她的第一次购物之旅中,此人购买了商品代码为 100 和 100 的商品(2 件商品)。在他/她的第二次购物之旅中,该客户只购买了商品 800。以此类推。

现在我想在这个客户上使用 cSPADE,订单在“购物篮”中并不重要,但在购物行程中却很重要。所以最终我对客户 17399 的记录是:

CUSTOMER_ID 购买了_items

17399 {(100,100),800,(900,900),405,(200,505,200,505)}

其中 {} 包含完整序列, () 表示每次购物行程。

我总体上理解这是一种可能性。但是,我没有看到任何示例(搜索了几个小时)或明确谈论支持这一点的 arulesSequences 的注释。有什么想法吗?将不胜感激。

谢谢你的时间。

0 投票
0 回答
194 浏览

r - TraMineR 中的最大状态数?

我有一个数据集,其中包含用户在网站上的文本字段中编写的文本。由于网站的性质,大多数用户在该领域多次写作。现在我想看看是否有模式。例如,在某个时间写“A”的用户将在以后写“B”。

经过一番谷歌搜索后,我发现TraMineR这是一个用于这种分析的库。但似乎TraMineR和/或 R 设置了状态数的最大值。这是真的还是我做错了什么?解决我的问题的最佳方法是什么?

关于我的数据集的更多信息:

  • 有超过一百万条文本输入日志
  • 大约 90000 个不同的用户
  • 大约 80000 个不同的输入(事件/状态?)

要创建我的数据的状态序列对象,我需要使用seqe2stm()from TraMineRextras(如此处所述),其中 my 的数量events超过 80000。运行该函数会给我错误:

矩阵中的错误(TRUE,nrow = nbstate,ncol = nevent):
无效的“nrow”值(太大或 NA)
此外:警告消息:
在矩阵中(TRUE,nrow = nbstate,ncol = nevent):
强制引入的 NA到整数范围

0 投票
1 回答
45 浏览

ruby - 是否可以读取字符串集合并返回正则表达式?

我收集了来自多个来源的文件。

每个文件都包含如下字符串:

我知道我可以事先编写所有可能的模式,但我宁愿自动编写。

是否可以制作一个程序来读取文件并计算模式?前任:

0 投票
1 回答
926 浏览

machine-learning - 数字模式识别?

考虑输入文件是

我想提取模式 25 27 29. 我可以使用哪些算法来按这样的顺序挖掘模式?我愿意使用无监督学习技术来实现它。

0 投票
1 回答
1581 浏览

apache-spark - 使用 SPARK 从关联规则中提取提升和支持

我正在使用频繁模式挖掘算法 - 关联规则:

我的问题是:

是否有可能提取规则的支持和提升?我只是得到了信心...

非常感谢!

0 投票
1 回答
873 浏览

scala - Spark Mllib - 频繁模式挖掘 - 关联规则 - 没有得到预期的结果

我有以下数据集:

我正在尝试使用 Spark Mllib 使用频繁模式挖掘来提取一些关联规则。为此,我有以下代码:

但是提取的所有规则的置信度都等于 1:

我真的不明白我在代码中遇到的问题......任何人都知道我必须计算置信度的错误是什么?

非常感谢!

0 投票
1 回答
1209 浏览

python - PrefixSpan 序列提取误区

我在一个列表中有一组大小为 3 的元组,它们表示窗口序列。我需要的是使用 pyspask 来获得(给定元组的前两个部分)第三个。

所以我需要它根据它们的频率创建三个元素的序列。

这就是我正在做的事情:

虽然,我希望看到它们遵循字母表的序列和频率,但它们没有。

我得到的序列如下:

没有出现在定义的那些中。显然,我构建功能的方式存在问题,或者我在该算法的目的和功能上遗漏了一些东西。

谢谢!

0 投票
1 回答
98 浏览

r - TraMineR,将所有当前的事件组合提取为虚拟变量

可以说我有这些数据。我的目标是提取序列的组合。
我有一个约束,两个事件之间的时间可能不超过 5,我们称之为maxGap.

如果想用这些序列作为二元解释变量进行分析。
给定这个数据框,结果应该是这样的。

(CB) 和 (CBC) 将是 0,因为maxGap> 5。
我试图为此使用许多 for 循环编写一个函数,但如果序列变得更大并且不同数量的 evet 也变得更大,它会变得非常复杂。如果不同用户的数量增长到 100 000。

是否有可能在 TraMineR 的帮助下做到这一点seqeconstraint

0 投票
0 回答
27 浏览

machine-learning - 频繁项集挖掘

我有一个人口问题的结果 每个人都提供每个问题的答案 每个人都有一些属性,如年龄、性别、种族、出生地等

我如何根据人们的答案对他们进行聚类并为此制定学习方法

例如

男性必须回答 B 到 Q1 和 A 到 Q3

亚洲人必须在 Q4、Q6、Q8 中回答 D