1

有没有办法像 SAS 输入命令一样在 R 中按字节长度读取数据?当一些多字节字符在表中作为固定列长度时,

aaa대전11b1
bb 서울21b2
ccc부산갑b3

SAS 可以按字节长度读取它,如下所示。

数据测试;
infile "文件路径";
输入
V1 $3。
V2 6 美元。
V3 2 美元。;
跑;

→</p>

aaa, 대전11, b1
bb , 서울21, b2
ccc, 부산갑, b3


但是在 R 中, read.fwf 只能按宽度而不是字节长度来分隔数据。

所以,命令如下

test <- read.fwf("文件路径", widths=c(3,6,2))

输出错误,或者最好是这样的形状

aaa, 대전11b1, NULL
bb , 서울21b2, NULL
ccc, 부산갑b3

所以,这是我的问题:有没有办法在 R 中按字节长度分隔数据列?

4

1 回答 1

0

使用下面的代码,您应该获得所需的输出(注意:您可以将此解决方案作为一种解决方法,直到您找到更好的方法!)

file <- readLines("your_data_file.txt",encoding="UTF-8")
newTxt <- unlist(strsplit(file, split = "\u2028"))
newTxt <- lapply(newTxt, function(x) gsub("^([a-zA-Z]*)(.*)([a-zA-Z0-9]{2})$", "\\1,\\2,\\3", x))
df = do.call(rbind.data.frame, newTxt)
names(df) <- "combined_column"

library(tidyr)
df %>% separate(combined_column, c("col1", "col2", "col3"), ",")

输出:

  col1    col2 col3
1  aaa  대전11   b1
2   bb  서울21   b2
3  ccc  부산갑   b3
于 2017-07-30T09:45:40.850 回答