我正在为文本挖掘创建一个 R 包,我想在包中添加一个函数来从 KEGG 获取路径列表。我能够从 wikipathways 获取路径,但无法从 KEGG 获取。请建议我如何在没有 NBCI2R nd other 之类的任何软件包的情况下从 KEGG 获取路径,我想制作自己的功能,所以请帮助我。
谢谢你
我正在为文本挖掘创建一个 R 包,我想在包中添加一个函数来从 KEGG 获取路径列表。我能够从 wikipathways 获取路径,但无法从 KEGG 获取。请建议我如何在没有 NBCI2R nd other 之类的任何软件包的情况下从 KEGG 获取路径,我想制作自己的功能,所以请帮助我。
谢谢你
在继续回答这个问题之前,我强烈建议您阅读http://www.kegg.jp/kegg/legal.html。KEGG 仅对学术用途免费,您需要适当的许可证才能为服务提供 API/库。因此,您很可能希望对需要此类许可证的ftp://ftp.genome.jp/进行非匿名访问。
但是,关于您的实际问题,您可以在http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext下找到所有路径的平面文件。只需下载并解析它:
lines <- readLines(
"http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext" )
pathways <- do.call(
rbind,
str_split( grep( "^[ABCD]\\s+\\d{5}\\s+.*?$", lines, value=TRUE ), "\\s{2,}" )
)
pathways <- as.data.frame( pathways )[-1]
colnames( pathways ) <- c( "ID", "Name" )
head(pathways)
ID Name
1 01100 Metabolic pathways
2 01110 Biosynthesis of secondary metabolites
3 01120 Microbial metabolism in diverse environments
4 00010 Glycolysis / Gluconeogenesis
5 00020 Citrate cycle (TCA cycle)
6 00030 Pentose phosphate pathway
请注意,这也可能仅用于非商业目的。但是,版权并没有说明非浏览器软件是否可以出于非商业用途访问该网站。所以最好不要在没有联系他们的情况下尝试过分广泛地尝试。