r - 如何根据 R 中列中的字母和数字字符对象在 data.frame 中创建新列

Question

我有一个数据框，其中的一列充满了这样的数据，在染色体上，然后是碱基位置，都在一列中。我用整数填充了剩余的 V2 到 V5 列，只是为了模拟类似的 data.frame。

> test
             V1 V2 V3 V4 V5
1     I.1286480  9 17 25 33
2     I.1898932 10 18 26 34
3    I.11871397 11 19 27 35
4    II.1252994 12 20 28 36
5   II.18175911 13 21 29 37
6  III.10298347 14 22 30 38
7  IV.123478912 15 23 31 39
8 V.12837471234 16 24 32 40

与以下列中的其他数据。这是一个庞大的数据集，有 115,000 行。我想新建两列，一列包含罗马数字（I、II、III、IV、V），另一列包含罗马数字后面的数字。我遇到的问题是这是一个字符对象的向量，所以我不确定如何从数字中解析出字母。我尝试使用 DescTools 包中的 StrPos，但是

> StrPos(test$V1, "I")
[1]  1  1  1  1  1  1  1 NA
> StrPos(test$V1, "I.")
[1]  1  1  1  1  1  1  1 NA

它返回所有“I”的位置，而不仅仅是具有一个“I”实例的对象。我想知道是否substring会工作？但是我遇到了所有罗马数字的长度不同的问题，以及罗马数字后面的数字也有不同的长度。我知道这个问题必须有一个简单的解决方案，但我唯一能想到的就是很长的for循环if。帮助我，stackoverflow，你是我唯一的希望！

score 5 · Accepted Answer

使用separate来自tidyr：

library(tidyr)
separate(test, V1, into = c("chr", "pos"))
  chr         pos V2 V3 V4 V5
1   I     1286480  9 17 25 33
2   I     1898932 10 18 26 34
3   I    11871397 11 19 27 35
4  II     1252994 12 20 28 36
5  II    18175911 13 21 29 37
6 III    10298347 14 22 30 38
7  IV   123478912 15 23 31 39
8   V 12837471234 16 24 32 40

r - 如何根据 R 中列中的字母和数字字符对象在 data.frame 中创建新列

1 回答 1

Related

Reference