问题标签 [pattern-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - “顺序模式挖掘”和“顺序规则挖掘”有什么区别
非常强大的开源数据挖掘工具 SPMF 的文档分别列出了它们:
http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php
有谁知道为什么?
r - R 中的 Apriori,arulesSequences:它是否支持“篮子”序列(单次购物行程中的订单无关紧要)?
我开始使用 arulesSequences,目的是对我拥有的一些数据执行频繁序列挖掘。商店 A 的数据如下所示:
CUSTOMER_ID seq_num 购买的商品尺寸
1 17399 1 2 {100,100}
2 17399 2 1 {800}
3 17399 3 2 {900,900}
4 17399 4 1 {405}
5 17399 5 4 {200,505,200,505}
这意味着这个顾客 #17399 多次在这家商店 A 购物。在他/她的第一次购物之旅中,此人购买了商品代码为 100 和 100 的商品(2 件商品)。在他/她的第二次购物之旅中,该客户只购买了商品 800。以此类推。
现在我想在这个客户上使用 cSPADE,订单在“购物篮”中并不重要,但在购物行程中却很重要。所以最终我对客户 17399 的记录是:
CUSTOMER_ID 购买了_items
17399 {(100,100),800,(900,900),405,(200,505,200,505)}
其中 {} 包含完整序列, () 表示每次购物行程。
我总体上理解这是一种可能性。但是,我没有看到任何示例(搜索了几个小时)或明确谈论支持这一点的 arulesSequences 的注释。有什么想法吗?将不胜感激。
谢谢你的时间。
r - TraMineR 中的最大状态数?
我有一个数据集,其中包含用户在网站上的文本字段中编写的文本。由于网站的性质,大多数用户在该领域多次写作。现在我想看看是否有模式。例如,在某个时间写“A”的用户将在以后写“B”。
经过一番谷歌搜索后,我发现TraMineR
这是一个用于这种分析的库。但似乎TraMineR
和/或 R 设置了状态数的最大值。这是真的还是我做错了什么?解决我的问题的最佳方法是什么?
关于我的数据集的更多信息:
- 有超过一百万条文本输入日志
- 大约 90000 个不同的用户
- 大约 80000 个不同的输入(事件/状态?)
要创建我的数据的状态序列对象,我需要使用seqe2stm()
from TraMineRextras
(如此处所述),其中 my 的数量events
超过 80000。运行该函数会给我错误:
矩阵中的错误(TRUE,nrow = nbstate,ncol = nevent):
无效的“nrow”值(太大或 NA)
此外:警告消息:
在矩阵中(TRUE,nrow = nbstate,ncol = nevent):
强制引入的 NA到整数范围
ruby - 是否可以读取字符串集合并返回正则表达式?
我收集了来自多个来源的文件。
每个文件都包含如下字符串:
我知道我可以事先编写所有可能的模式,但我宁愿自动编写。
是否可以制作一个程序来读取文件并计算模式?前任:
machine-learning - 数字模式识别?
考虑输入文件是
我想提取模式 25 27 29. 我可以使用哪些算法来按这样的顺序挖掘模式?我愿意使用无监督学习技术来实现它。
apache-spark - 使用 SPARK 从关联规则中提取提升和支持
我正在使用频繁模式挖掘算法 - 关联规则:
我的问题是:
是否有可能提取规则的支持和提升?我只是得到了信心...
非常感谢!
scala - Spark Mllib - 频繁模式挖掘 - 关联规则 - 没有得到预期的结果
我有以下数据集:
我正在尝试使用 Spark Mllib 使用频繁模式挖掘来提取一些关联规则。为此,我有以下代码:
但是提取的所有规则的置信度都等于 1:
我真的不明白我在代码中遇到的问题......任何人都知道我必须计算置信度的错误是什么?
非常感谢!
python - PrefixSpan 序列提取误区
我在一个列表中有一组大小为 3 的元组,它们表示窗口序列。我需要的是使用 pyspask 来获得(给定元组的前两个部分)第三个。
所以我需要它根据它们的频率创建三个元素的序列。
这就是我正在做的事情:
虽然,我希望看到它们遵循字母表的序列和频率,但它们没有。
我得到的序列如下:
没有出现在定义的那些中。显然,我构建功能的方式存在问题,或者我在该算法的目的和功能上遗漏了一些东西。
谢谢!
r - TraMineR,将所有当前的事件组合提取为虚拟变量
可以说我有这些数据。我的目标是提取序列的组合。
我有一个约束,两个事件之间的时间可能不超过 5,我们称之为maxGap
.
如果想用这些序列作为二元解释变量进行分析。
给定这个数据框,结果应该是这样的。
(CB) 和 (CBC) 将是 0,因为maxGap
> 5。
我试图为此使用许多 for 循环编写一个函数,但如果序列变得更大并且不同数量的 evet 也变得更大,它会变得非常复杂。如果不同用户的数量增长到 100 000。
是否有可能在 TraMineR 的帮助下做到这一点seqeconstraint
?
machine-learning - 频繁项集挖掘
我有一个人口问题的结果 每个人都提供每个问题的答案 每个人都有一些属性,如年龄、性别、种族、出生地等
我如何根据人们的答案对他们进行聚类并为此制定学习方法
例如
男性必须回答 B 到 Q1 和 A 到 Q3
亚洲人必须在 Q4、Q6、Q8 中回答 D