问题标签 [sequence-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R - 需要帮助将矩阵放入篮子或交易表格
我需要帮助将上面的矩阵放入篮子或交易形式(与包 arulesSequences 中的 cSpade 算法一起使用),以便矩阵中的每个“1”都是交易项。即,输出看起来像这样:
我写了一个很长的函数,但它不是很有效而且很耗时。它需要跨庞大的数据集进行扩展。提前感谢您的帮助
machine-learning - 序列分析和预测下一个标签
我以以下格式记录了大约 1000 个条目的数据集。
我尝试根据数据集中的历史来预测Actions
特定用户的未来。Users
你对我应该看哪些算法有一些想法,因为我对这个领域很陌生。
编辑
一个主要目标是为单个用户和操作找到周期性模式(基于时间戳)。应该随着时间的推移分析用户的历史记录,以找到特定操作的峰值。
python - Python/Biopython:如何在有间隙的序列中搜索参考序列(字符串)?
我面临以下问题,尚未找到解决方案:
我正在开发一种用于序列分析的工具,该工具使用带有参考序列的文件并尝试在测试序列中找到这些参考序列之一。
问题是测试序列可能包含间隙(例如:)ATG---TCA
。我希望我的工具找到一个特定的参考序列作为测试序列的子串,即使参考序列被-
测试序列中的间隙 ( ) 打断。
例如:
我的参考序列之一:
a = TGTAACGAACGG
我的测试序列:
b = ACCT**TGT--CGAA-GG**AGT
(参考序列中的相应部分以粗体给出)
我虽然关于正则表达式并试图自己努力,但如果我没有错,正则表达式只会反过来起作用。因此,我需要将间隙位置作为正则表达式包含到参考序列中,然后将其映射到测试序列中。但是,我不知道测试序列中间隙的位置、长度和数量。我的想法是-
将测试序列字符串中的间隙位置(所以 all )交换为某种正则表达式或代表参考序列中任何其他字符的特殊字符。比我将未修改的参考序列与我修改的测试序列进行比较......不幸的是,我没有在 python 中找到一个用于字符串搜索的函数或一种可以做到这一点的正则表达式。
非常感谢!
markov-chains - 从概率后缀树获得对数似然
这是我的代码:
出于某种原因,它拒绝返回对数似然值?为什么会这样?如何获得对数似然值?
markov-chains - 在概率后缀树的序列中,“e”出现在哪里?
*
在我的数据中,序列右侧只有缺失的数据 ( )。这意味着没有序列以 开头,*
并且没有序列在 之后有任何其他标记*
。尽管如此,PST(概率后缀树)似乎预测有 90% 的机会以*
. 这是我的代码:
这会产生:
*
出现0.9097081
在序列开头的概率如何,即在上下文之后e
?
这是否意味着上下文可以出现在序列中的任何位置,并且e
表示序列中某处的任意起点?
r - 计算概率后缀树中上下文状态关系的提升?
PST
给我各种上下文和以下状态的概率和条件概率。但是,能够计算上下文和后续状态之间关系的提升(及其重要性)将非常有帮助。我怎样才能做到这一点?
这给出了几个上下文,其中之一是:
假设我想计算 和 之间关系的QU
提升N3
。我们知道N3
给定的条件概率N2
是0.05
。要计算升力,我是否只需将条件概率除以结果状态的无条件概率,如下所示:
如果我们这样做,seqstatf(data.seq)
我们可以看到N3
标记的分数是0.01721715
。那么这是否意味着电梯是:
或者更合适的方法是采用N3
给出e
的概率cmine(S1, pmin = 0, state = "N3", l = 1)
,即0.001554569
?这将产生以下提升:
这要高得多...
r - 基于只有 1 个状态的上下文预测条件概率
似乎PST
无法预测由单个状态组成的上下文之后的下一个状态的条件概率,例如EX-EX
考虑这段代码:
该行context <- seqdef("EX-EX")
产生:
这意味着predict()
无法执行。
如何根据只有 1 个状态且可能重复多次的上下文预测下一个状态的条件概率?
r - 将 VLMC 拟合到非常长的序列
我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集。我这样做如下所示:
但是,这会产生以下错误:
如何将模型拟合到具有这么长序列的数据?限制模型中的长度有什么好的理由吗?
r - 在信息增益修剪函数的上下文中,alpha 的含义是什么?
在 PST 包中,我们使用该值C
作为用于修剪树的信息增益函数的截止值。alpha 为 0.05的C
值计算如下:
C
该值基于 0.05 的 alpha 是什么意思?这是否意味着我们需要至少 95% 确定一个额外的节点与之前的节点相比添加了更多的信息,以便修剪算法保留它?
r - PST中滞后参数的含义?
在pmine()
函数中PST
你可以使用滞后。这是什么滞后?这是否意味着它忽略lag
了序列中的第一个位置?或者这是否意味着您允许子序列中的滞后?从文档中很难理解延迟的实际含义。