问题标签 [pattern-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
40 浏览

algorithm - 为什么 BIDE 使用半最大周期进行 serach 空间修剪?

0 投票
1 回答
208 浏览

r - 将字符串转换为 R 日期时间对象的正确格式

我有一个系统生成的日期和时间格式。它看起来像这样,“ 2017-04-12-02.29.25.000000”。我想将此格式转换为标准格式,以便我的系统可以读取它,然后我可以将其转换为分钟。有人请帮助提供 R 中的代码。

0 投票
1 回答
204 浏览

data-mining - 顺序模式或项集 fp 树

FP-growth 算法用于项集挖掘。有没有办法将这些算法用于顺序模式挖掘而不是项集挖掘?

0 投票
2 回答
1689 浏览

python - 从 Freeman 链码生成图像矩阵

假设我有一个 8 向的 freeman 链码如下,在一个 python 列表中:

方向将定义如下:

弗里曼代码说明

我需要将其转换为具有 1s 和 0s 值的可变维度的图像矩阵,其中 1s 将描述形状,例如:

当然,以上并不是上述freeman代码的精确实现。python中是否有任何实现,或者任何实现这一目标的语言?我的想法(在python中):使用defaultdicts的defaultdict,默认为0:

然后从一个中点开始,比如说ImgMatrixDict[25][25],然后根据我遍历的 freeman 代码值将值更改为 1。之后我将转换ImgMatrixDict为列表列表。

这是一个可行的想法还是有任何现有的库或建议来实现它?任何想法/伪代码将不胜感激。

PS:在性能方面,是的,这并不重要,因为我不会实时执行此操作,但通常代码长度约为 15-20 个字符。我假设一个 50*50 的矩阵就足够了。

0 投票
2 回答
144 浏览

r - 使用 R 根据子字符串的第 n 次出现有效地分解字符串

介绍

给定 R 中的一个字符串,是否有可能得到一个向量化的解决方案(即没有循环),我们可以将字符串分成块,其中每个块由字符串中第 n 次出现的子字符串决定。

使用可重现示例完成的工作

假设我们有几段著名的 Lorem Ipsum 文本。

我们希望在单词“in”的每3 次出现时将该文本分成多个段(包含一个空格是为了与包含“in”作为其中一部分的单词区分开来,例如“min”)。

我有以下带有while循环的解决方案:

我们能够在带有警告的列表中获得所需的输出(未显示警告)

目标

是否可以通过矢量化(即使用 、 等)来改进此apply()解决lapply()方案mapply()。此外,我当前的解决方案切断了块中子字符串的最后一次出现。

当前的解决方案可能不适用于极长的字符串(例如我们正在寻找第 n 次出现核苷酸子串的块的 DNA 序列)。

0 投票
1 回答
324 浏览

python - 有没有办法使用找到的顺序模式作为聚类算法的输入

我正在做一个根据用户在网站上的浏览模式对用户进行分类的项目。

为此,我需要在数据中找到模式,然后对它们进行聚类,但聚类是一个问题,因为我尝试的聚类算法(k-means、凝聚和 DBSCAN)不允许将列表作为输入数据。

我有访问页面的列表,按会话分隔。

例子:

每个列表代表一个访问页面的会话。每个数字代表 URL 的一部分。

例子:

我通过模式挖掘脚本输入数据。

代码:

结果:

根据一篇论文,我正在使用下一步是使用找到的模式作为聚类算法的输入(第 118 页第 4.3 章),但据我所知,聚类算法不接受列表(可变长度)作为输入。

我已经尝试过了,但是没有用。

代码:

我应该怎么做才能让 k-means 算法能够预测冲浪模式所属的组,或者是否有另一种更适合这个的算法?

提前致谢!

0 投票
2 回答
59 浏览

r - 如何删除序列中包含两个或多个单词(彼此之后)的行?

我想删除彼此之后具有相同两个或多个单词的行,例如序列。这是做一个顺序模式挖掘分析。

我已经尝试过distinct()andduplicated()功能,但这只会删除整行。

这是桌子。如果Teacher在句子中出现了两三次也没关系,只要不是一个接一个就行。

期望的结果是:

0 投票
1 回答
136 浏览

apriori - Apriori算法中的候选集生成

我正在尝试在 Java 中实现 Apriori 算法,并且在生成候选项集时遇到问题。为了创建 k-itemset 的候选者,我使用了 k-1 和 1-itemset 的所有组合。例如,对于频繁的 1 项集:面包:9,牛奶:9,咖啡:9,糖:10。

生成的候选2-项目集应该是:面包牛奶、面包咖啡、面包糖、牛奶咖啡、牛奶糖、咖啡糖。

但我的代码返回:面包咖啡,面包牛奶,面包糖,咖啡面包,咖啡牛奶,咖啡糖,牛奶面包,牛奶咖啡,牛奶糖,糖面包,糖咖啡,糖牛奶(所有排列;返回面包牛奶和牛奶面包,但是,这两个是一回事)。

我的代码:

有没有办法修改此方法以摆脱重复项集?请指教。谢谢你。

0 投票
1 回答
230 浏览

recursion - FP-Growth 算法中的递归

我正在尝试在 Java 中实现 FP-Growth(频繁模式挖掘)算法。我已经构建了树,但是在条件 FP 树构建时遇到了困难;我不明白递归函数应该做什么。给定一个频繁项列表(按频率计数递增的顺序)——一个标题和一个树(节点类实例的列表),函数应该采取哪些步骤? 从 https://www.google.com/url?sa=i&source=images&cd=&cad=rja&uact=8&ved=2ahUKEwiT4Oeeg53lAhWPhOAKHUdSAmkQjRx6BAgBEAQ&url=https%3A%2F%2Fwww.researchgate.net%2Ffigure%2FPseudocode-FP-tree-Purba 检索到的图像-30_fig2_330783065&psig=AOvVaw3fyRRKroFZwnASsE-vuMZy&ust=1571186297476542

我很难理解上面的这个伪代码。树中的 alpha 和 Betha 节点是什么,生成和构造函数有什么作用?我可以手动进行 FP-Growth,但发现实现非常混乱。如果这有帮助,我可以分享我的 FP-Tree 生成代码。提前致谢。

0 投票
1 回答
173 浏览

regex - PRXMATCH 不适用于 SAS 中的 PRXPARSE 函数

我有多个 id 的评论,我需要从评论中提取。每个 Id 在单独的列中都是必需的。

输入数据有 2 列 - comment_id 和 Comment(它有 1 个或多个 ID)

期望的输出应该有 2 列:comment_id & ID

我正在使用以下功能。

用于解析

用于输出生成

错误:函数 PRXNEXT 的参数 1 必须是 PRXPARSE 返回的正整数才能获得有效模式。错误:在函数 PRXNEXT 中检测到内部错误。DATA 步在 EXECUTION 阶段终止。

我相信错误是因为解析不正确,但是当我直接使用正则表达式来使用 prxmatch 函数时,我得到了正确的匹配。有人能建议我如何使这段代码正常工作吗?

此代码工作正常

但是这段代码也给出了同样的错误: