问题标签 [pattern-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将字符串转换为 R 日期时间对象的正确格式
我有一个系统生成的日期和时间格式。它看起来像这样,“ 2017-04-12-02.29.25.000000
”。我想将此格式转换为标准格式,以便我的系统可以读取它,然后我可以将其转换为分钟。有人请帮助提供 R 中的代码。
data-mining - 顺序模式或项集 fp 树
FP-growth 算法用于项集挖掘。有没有办法将这些算法用于顺序模式挖掘而不是项集挖掘?
python - 从 Freeman 链码生成图像矩阵
假设我有一个 8 向的 freeman 链码如下,在一个 python 列表中:
方向将定义如下:
我需要将其转换为具有 1s 和 0s 值的可变维度的图像矩阵,其中 1s 将描述形状,例如:
当然,以上并不是上述freeman代码的精确实现。python中是否有任何实现,或者任何实现这一目标的语言?我的想法(在python中):使用defaultdicts的defaultdict,默认为0:
然后从一个中点开始,比如说ImgMatrixDict[25][25]
,然后根据我遍历的 freeman 代码值将值更改为 1。之后我将转换ImgMatrixDict
为列表列表。
这是一个可行的想法还是有任何现有的库或建议来实现它?任何想法/伪代码将不胜感激。
PS:在性能方面,是的,这并不重要,因为我不会实时执行此操作,但通常代码长度约为 15-20 个字符。我假设一个 50*50 的矩阵就足够了。
r - 使用 R 根据子字符串的第 n 次出现有效地分解字符串
介绍
给定 R 中的一个字符串,是否有可能得到一个向量化的解决方案(即没有循环),我们可以将字符串分成块,其中每个块由字符串中第 n 次出现的子字符串决定。
使用可重现示例完成的工作
假设我们有几段著名的 Lorem Ipsum 文本。
我们希望在单词“in”的每3 次出现时将该文本分成多个段(包含一个空格是为了与包含“in”作为其中一部分的单词区分开来,例如“min”)。
我有以下带有while循环的解决方案:
我们能够在带有警告的列表中获得所需的输出(未显示警告)
目标
是否可以通过矢量化(即使用 、 等)来改进此apply()
解决lapply()
方案mapply()
。此外,我当前的解决方案切断了块中子字符串的最后一次出现。
当前的解决方案可能不适用于极长的字符串(例如我们正在寻找第 n 次出现核苷酸子串的块的 DNA 序列)。
python - 有没有办法使用找到的顺序模式作为聚类算法的输入
我正在做一个根据用户在网站上的浏览模式对用户进行分类的项目。
为此,我需要在数据中找到模式,然后对它们进行聚类,但聚类是一个问题,因为我尝试的聚类算法(k-means、凝聚和 DBSCAN)不允许将列表作为输入数据。
我有访问页面的列表,按会话分隔。
例子:
每个列表代表一个访问页面的会话。每个数字代表 URL 的一部分。
例子:
我通过模式挖掘脚本输入数据。
代码:
结果:
根据一篇论文,我正在使用下一步是使用找到的模式作为聚类算法的输入(第 118 页第 4.3 章),但据我所知,聚类算法不接受列表(可变长度)作为输入。
我已经尝试过了,但是没有用。
代码:
我应该怎么做才能让 k-means 算法能够预测冲浪模式所属的组,或者是否有另一种更适合这个的算法?
提前致谢!
r - 如何删除序列中包含两个或多个单词(彼此之后)的行?
我想删除彼此之后具有相同两个或多个单词的行,例如序列。这是做一个顺序模式挖掘分析。
我已经尝试过
distinct()
andduplicated()
功能,但这只会删除整行。
这是桌子。如果Teacher在句子中出现了两三次也没关系,只要不是一个接一个就行。
期望的结果是:
apriori - Apriori算法中的候选集生成
我正在尝试在 Java 中实现 Apriori 算法,并且在生成候选项集时遇到问题。为了创建 k-itemset 的候选者,我使用了 k-1 和 1-itemset 的所有组合。例如,对于频繁的 1 项集:面包:9,牛奶:9,咖啡:9,糖:10。
生成的候选2-项目集应该是:面包牛奶、面包咖啡、面包糖、牛奶咖啡、牛奶糖、咖啡糖。
但我的代码返回:面包咖啡,面包牛奶,面包糖,咖啡面包,咖啡牛奶,咖啡糖,牛奶面包,牛奶咖啡,牛奶糖,糖面包,糖咖啡,糖牛奶(所有排列;返回面包牛奶和牛奶面包,但是,这两个是一回事)。
我的代码:
有没有办法修改此方法以摆脱重复项集?请指教。谢谢你。
regex - PRXMATCH 不适用于 SAS 中的 PRXPARSE 函数
我有多个 id 的评论,我需要从评论中提取。每个 Id 在单独的列中都是必需的。
输入数据有 2 列 - comment_id 和 Comment(它有 1 个或多个 ID)
期望的输出应该有 2 列:comment_id & ID
我正在使用以下功能。
用于解析
用于输出生成
错误:函数 PRXNEXT 的参数 1 必须是 PRXPARSE 返回的正整数才能获得有效模式。错误:在函数 PRXNEXT 中检测到内部错误。DATA 步在 EXECUTION 阶段终止。
我相信错误是因为解析不正确,但是当我直接使用正则表达式来使用 prxmatch 函数时,我得到了正确的匹配。有人能建议我如何使这段代码正常工作吗?
此代码工作正常
但是这段代码也给出了同样的错误: