“pattern-mining”的相关标签问题

0 投票

1 回答

40 浏览

algorithm - 为什么 BIDE 使用半最大周期进行 serach 空间修剪？

2018-06-04T13:22:04.493

0 投票

1 回答

208 浏览

r - 将字符串转换为 R 日期时间对象的正确格式

我有一个系统生成的日期和时间格式。它看起来像这样，“ 2017-04-12-02.29.25.000000”。我想将此格式转换为标准格式，以便我的系统可以读取它，然后我可以将其转换为分钟。有人请帮助提供 R 中的代码。

r datetime pattern-mining

2018-06-11T12:45:54.967

0 投票

1 回答

204 浏览

data-mining - 顺序模式或项集 fp 树

FP-growth 算法用于项集挖掘。有没有办法将这些算法用于顺序模式挖掘而不是项集挖掘？

data-mining pattern-mining

2018-08-06T21:01:45.097

0 投票

2 回答

1689 浏览

python - 从 Freeman 链码生成图像矩阵

假设我有一个 8 向的 freeman 链码如下，在一个 python 列表中：

方向将定义如下：

我需要将其转换为具有 1s 和 0s 值的可变维度的图像矩阵，其中 1s 将描述形状，例如：

当然，以上并不是上述freeman代码的精确实现。python中是否有任何实现，或者任何实现这一目标的语言？我的想法（在python中）：使用defaultdicts的defaultdict，默认为0：

然后从一个中点开始，比如说ImgMatrixDict[25][25]，然后根据我遍历的 freeman 代码值将值更改为 1。之后我将转换ImgMatrixDict为列表列表。

这是一个可行的想法还是有任何现有的库或建议来实现它？任何想法/伪代码将不胜感激。

PS：在性能方面，是的，这并不重要，因为我不会实时执行此操作，但通常代码长度约为 15-20 个字符。我假设一个 50*50 的矩阵就足够了。

python python-3.x data-mining pattern-mining

2018-12-17T16:08:06.947

0 投票

2 回答

144 浏览

r - 使用 R 根据子字符串的第 n 次出现有效地分解字符串

介绍

给定 R 中的一个字符串，是否有可能得到一个向量化的解决方案（即没有循环），我们可以将字符串分成块，其中每个块由字符串中第 n 次出现的子字符串决定。

使用可重现示例完成的工作

假设我们有几段著名的 Lorem Ipsum 文本。

我们希望在单词“in”的每3 次出现时将该文本分成多个段（包含一个空格是为了与包含“in”作为其中一部分的单词区分开来，例如“min”）。

我有以下带有while循环的解决方案：

我们能够在带有警告的列表中获得所需的输出（未显示警告）

目标

是否可以通过矢量化（即使用、等）来改进此apply()解决lapply()方案mapply()。此外，我当前的解决方案切断了块中子字符串的最后一次出现。

当前的解决方案可能不适用于极长的字符串（例如我们正在寻找第 n 次出现核苷酸子串的块的 DNA 序列）。

r string text text-mining pattern-mining

2019-04-04T16:01:05.860

0 投票

1 回答

324 浏览

python - 有没有办法使用找到的顺序模式作为聚类算法的输入

我正在做一个根据用户在网站上的浏览模式对用户进行分类的项目。

为此，我需要在数据中找到模式，然后对它们进行聚类，但聚类是一个问题，因为我尝试的聚类算法（k-means、凝聚和 DBSCAN）不允许将列表作为输入数据。

我有访问页面的列表，按会话分隔。

例子：

每个列表代表一个访问页面的会话。每个数字代表 URL 的一部分。

例子：

我通过模式挖掘脚本输入数据。

代码：

结果：

根据一篇论文，我正在使用下一步是使用找到的模式作为聚类算法的输入（第 118 页第 4.3 章），但据我所知，聚类算法不接受列表（可变长度）作为输入。

我已经尝试过了，但是没有用。

代码：

我应该怎么做才能让 k-means 算法能够预测冲浪模式所属的组，或者是否有另一种更适合这个的算法？

提前致谢！

python machine-learning cluster-analysis k-means pattern-mining

2019-05-07T14:48:33.467

0 投票

2 回答

59 浏览

r - 如何删除序列中包含两个或多个单词（彼此之后）的行？

我想删除彼此之后具有相同两个或多个单词的行，例如序列。这是做一个顺序模式挖掘分析。

我已经尝试过distinct()andduplicated()功能，但这只会删除整行。

这是桌子。如果Teacher在句子中出现了两三次也没关系，只要不是一个接一个就行。

期望的结果是：

r dataframe design-patterns sequential pattern-mining

2019-05-13T14:57:22.390

0 投票

1 回答

136 浏览

apriori - Apriori算法中的候选集生成

我正在尝试在 Java 中实现 Apriori 算法，并且在生成候选项集时遇到问题。为了创建 k-itemset 的候选者，我使用了 k-1 和 1-itemset 的所有组合。例如，对于频繁的 1 项集：面包：9，牛奶：9，咖啡：9，糖：10。

生成的候选2-项目集应该是：面包牛奶、面包咖啡、面包糖、牛奶咖啡、牛奶糖、咖啡糖。

但我的代码返回：面包咖啡，面包牛奶，面包糖，咖啡面包，咖啡牛奶，咖啡糖，牛奶面包，牛奶咖啡，牛奶糖，糖面包，糖咖啡，糖牛奶（所有排列；返回面包牛奶和牛奶面包，但是，这两个是一回事）。

我的代码：

有没有办法修改此方法以摆脱重复项集？请指教。谢谢你。

apriori pattern-mining

2019-10-12T04:34:32.453

0 投票

1 回答

230 浏览

recursion - FP-Growth 算法中的递归

我正在尝试在 Java 中实现 FP-Growth（频繁模式挖掘）算法。我已经构建了树，但是在条件 FP 树构建时遇到了困难；我不明白递归函数应该做什么。给定一个频繁项列表（按频率计数递增的顺序）——一个标题和一个树（节点类实例的列表），函数应该采取哪些步骤？

我很难理解上面的这个伪代码。树中的 alpha 和 Betha 节点是什么，生成和构造函数有什么作用？我可以手动进行 FP-Growth，但发现实现非常混乱。如果这有帮助，我可以分享我的 FP-Tree 生成代码。提前致谢。

recursion machine-learning data-mining fpgrowth pattern-mining

2019-10-15T00:50:55.580

0 投票

1 回答

173 浏览

regex - PRXMATCH 不适用于 SAS 中的 PRXPARSE 函数

我有多个 id 的评论，我需要从评论中提取。每个 Id 在单独的列中都是必需的。

输入数据有 2 列 - comment_id 和 Comment（它有 1 个或多个 ID）

期望的输出应该有 2 列：comment_id & ID

我正在使用以下功能。

用于解析

用于输出生成

错误：函数 PRXNEXT 的参数 1 必须是 PRXPARSE 返回的正整数才能获得有效模式。错误：在函数 PRXNEXT 中检测到内部错误。DATA 步在 EXECUTION 阶段终止。

我相信错误是因为解析不正确，但是当我直接使用正则表达式来使用 prxmatch 函数时，我得到了正确的匹配。有人能建议我如何使这段代码正常工作吗？

此代码工作正常

但是这段代码也给出了同样的错误：

regex sas pattern-mining

2020-06-16T07:14:34.773

问题标签 [pattern-mining]

Reference