r - 在 R 中将 FASTQ ASCII 转换为十进制和十六进制

Question

我有一个 FASTQ 质量分数，它显示为一系列 ASCII 字符。在这种情况下（可能）ASCII 字符 64 到 126 代表 0 到 62 的分数（假设它是 Illumina）。这产生了基础序列：

feffefdfbefdfffcfdeTddaYddffbfcI``S_KKX_]]MR[D_TY[VTVXQ]`Q_BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

如何提取 ASCII 字符的数量？

谢谢你桑

编辑：这个序列表示由碱基组成的生物序列的质量（来自核酸中的碱基对，意味着一个字符（ATGC））。碱基质量是 phred 标度的碱基错误概率，等于 -10 log10 Pr{碱基错误}。

score 6 · Accepted Answer

好吧，正如 Marek 所说：您可能会在 Bioconductor 中找到转换 Illumina 质量分数的功能。您可以在biostar.stackexchange.com上询问。

使用基本功能，您可以使用charToRaw()：

> x <- "feeffdbefc`\\KKX]_BBBB"
> charToRaw(x)
 [1] 66 65 65 66 66 64 62 65 66 63 60 5c 4b 4b 58 5d 5f 42 42 42 42
> as.numeric(charToRaw(x))
 [1] 102 101 101 102 102 100  98 101 102  99  96  92  75  75  88  93  95  66  66  66  66
> as.character(charToRaw(x))
 [1] "66" "65" "65" "66" "66" "64" "62" "65" "66" "63" "60" "5c" "4b" "4b" "58" "5d" "5f" "42" "42" "42" "42"

请注意，您必须避开反斜杠，否则您会遇到麻烦。这取决于您如何读取数据等。

r - 在 R 中将 FASTQ ASCII 转换为十进制和十六进制

1 回答 1

Related

Reference