问题标签 [splitstackshape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中的cSplit函数
我可以同时使用 a 和 b 列进行拆分吗?如果我们使用 [Undesired_Output][1] H= cSplit(jnk,"a",",","long"),我们会得到如图 1 所示的输出。但是我想要我的数据框如下所示的输出执行以下命令后:
r - 将具有不同条目数量的 prokka gff 表中的额外分隔列拆分为具有 NA 的新列(splitstackshape / R)
我有一个文件,包括制表符分隔和分号分隔的数据(.gff 格式的 prokka 注释文件)。不幸的是,分号分隔的部分在条目数量上并不一致。
不过幸运的是,分号后的前导部分(例如ID=
or gene=
)是一致的。我想将此数据准备为 R(或 R 内)的输入,而没有不同的列号或空字段。这些是 prokka 文件的第一行,删除了一些列:
期望的输出是:
r - 需要拆分包含不同数量的变量名称和观察值的双重连接数据的列
我有一列“sample_values”,其中包含不同数量的双重连接数据,用“,”和“:”字符分隔。我需要将由“,”分隔的值变成新变量(列)和由“:”分隔的值对这些新变量的观察。有问题的 data.frame 的一小部分如下所示:
我想得到以下结果:
我会注意到,没有观察应被解释为零。
我已经尝试过使用包中的各种组合以及separate()
包中的使用。选项失败是因为要在列中分离的观察数量不同,选项失败是因为内存不足(未删节的数据文件大小为 485 MB)。spread()
tidyr
cSplit()
splitstackshape
tidyr
splitstackshape
r - 如何根据 R 中的行值在 data.frame 中创建新列?
嘿嘿,
我有一个带有家庭三重奏的data.frame,我想添加一个包含每个“id”(=后代)的完整同胞的列。
我的数据:
我想检索的内容:
我试过的:
(类似于:如何将数据框行转换为 R 中的列?)
每个父二人组只给我一行(而不是为每个“id”创建同一行):
在某些情况下不会有完整的同胞,在某些情况下会有 15 个。
提前感谢您的建议!:)
r - 如何为随机样本选择设置种子?
基于具有分组样本的数据框,我想从每组中随机挑选 5 个样本。stratified
我可以使用package中的函数轻松做到这一点splitstackshape
。但是是否有可能设置种子以使选择可重复?
r - 如何根据 R 中的分组值列出列中的行值?
嘿嘿,
我有一个输入文件,该文件有一列带有基因 id,然后有一列带有 GO 术语,每个基因有多行(从 1 到 >20 的任意位置)。我需要生成的格式对于每个唯一的基因 id 都有一行,第二列中有 GO 术语,用分号分隔。
我的数据:
所需的输出:
我尝试过类似于如何根据 R 中的行值在 data.frame 中创建新列?但没有成功。
提前感谢您的建议!:)
r - 如何在循环中进行分层抽样?
我有两个数据集。我需要从中采样的一个,另一个是指定数量的记录以从每个层中采样。我想以指定的样本大小重复采样,直到样本数据帧达到 X 条记录。如何循环采样?我目前正在使用包 splitstackshape 中的分层函数?
r - splitstackshape 根据不同的行分隔符拆分文本 \n 用于列和观察
我有一些文本数据,如下所示:
它是结构化的,我想将文本分成几列。结构始终相同。也就是说,给定:
因此,列名应位于 4 行分隔符之后,结果位于 2 行分隔符之后。
我试过使用这个splitstackshape
包。
这使:
这不是我想要的,但很接近。
预期输出:
数据:
r - 按序列长度扩展数据框中的行
我有一个这样的数据框
我想用一个简单的函数把它扩展到这个
这基本上是试图扩大mydf
每一length(mydf$min:mydf:max)
行的mydf
. 但我也想添加每一行min_to_max
中的序列。mydf$min:mydf:max
我知道这个功能可以根据您指定的“计数”进行扩展
但这并不能完全让我找到我的解决方案。请帮忙!谢谢!
r - 根据列值复制数据框中的行
我正在尝试根据列的值复制行。我的数据框(df)目前看起来像:
物种名称 | 访问 |
---|---|
蜜蜂 | 4 |
熊蜂l | 7 |
依此类推(还有 34 列需要重复)我希望它看起来像:
物种名称 |
---|
蜜蜂 |
蜜蜂 |
蜜蜂 |
蜜蜂 |
熊蜂l |
熊蜂l |
熊蜂l |
熊蜂l |
熊蜂l |
熊蜂l |
熊蜂l |
这是一个相当大的数据集,包含 1767 个观测值,有 190 个“物种名称”,每个物种都被访问了数百次。
我对 R(和编码!)非常陌生,所以一切都是“反复试验”。我使用“splitstackshape”在 Stack Overflow 上找到了一个解决方案,但出现了错误
“.subset2(x, i, exact = exact) 中的错误:递归索引在第 2 级失败”。
这是我的代码:
此错误的其他实例存在问题,但请注意与“扩展行”功能相关。该列存储为整数,我已从“访问”列中删除了所有空值。
任何关于我的问题可能是什么或如何做到这一点的其他想法的指针将不胜感激。
丹妮尔
编辑:下面的 Reprex,我不确定“找不到函数”与什么相关,因为它似乎在没有 Reprex 的情况下运行代码?另外,这里不包含实际的列名和 df,我在上面的示例中进行了简化。