我有一个大数据集,我需要在饼图中表示它。所以我正在寻找选择前 25 行并将所有剩余行汇总在一个新标签中的方法 [如“其他”]。数据是这样的:
23527 Streptococcaceae 0.19
13871 Neisseriaceae 0.11
7197 Enterobacteriaceae 0.06
6914 Pasteurellaceae 0.06
5141 Actinomycetaceae 0.04
4970 Corynebacteriaceae 0.04
4010 Veillonellaceae 0.03
3263 Lactobacillaceae 0.03
3178 Burkholderiaceae 0.03
2753 Mycobacteriaceae 0.02
2574 Streptomycetaceae 0.02
2330 Bacillaceae 0.02
2008 Micrococcaceae 0.02
1952 Vibrionaceae 0.02
1606 Enterococcaceae 0.01
1382 Pseudomonadaceae 0.01
1261 Flavobacteriaceae 0.01
1243 Clostridiaceae 0.01
1218 Bifidobacteriaceae 0.01
1114 Nocardiaceae 0.01
1104 Propionibacteriaceae 0.01
1076 Prevotellaceae 0.01
[...]
第一行是这个词出现的次数,第三行是计数的相对百分比。我想得到这样的东西:
23527 Streptococcaceae 0.19
13871 Neisseriaceae 0.11
7197 Enterobacteriaceae 0.06
6914 Pasteurellaceae 0.06
5141 Actinomycetaceae 0.04
4970 Corynebacteriaceae 0.04
4010 Veillonellaceae 0.03
3263 Lactobacillaceae 0.03
3178 Burkholderiaceae 0.03
2753 Mycobacteriaceae 0.02
2574 Streptomycetaceae 0.02
2330 Bacillaceae 0.02
2008 Micrococcaceae 0.02
3000 Others 0.12
是否可以在 R 中执行此操作,或者哪种方法更好?提前致谢!
(编辑)
完整代码:
family <-as.data.frame (read.table ("Taxonomy_Family_info", sep="\t"))
piedat <- rbind(family[1:25, ],
as.data.frame(c(sum(family[26:nrow(family),1]),
"Others",
sum(family[26:nrow(family),3]))))
> dput(head(family,5))
structure(list(V1 = c(23527L, 13871L, 7197L, 6914L, 5141L), V2 = structure(c(359L,
256L, 136L, 283L, 9L), .Label = c("- ", "Acetobacteraceae ",
"Acholeplasmataceae ", "Acidaminococcaceae ", "Acidimicrobiaceae ",
"Acidithiobacillaceae ", "Acidobacteriaceae ", "Acidothermaceae ",
"Actinomycetaceae ", "Adoxaceae ", "Adrianichthyidae ", "Aerococcaceae ",
"Aeromonadaceae ", "Ajellomycetaceae ", "Albuginaceae ", "Alcaligenaceae ",
"Alcanivoracaceae ", "Alicyclobacillaceae ", "Alteromonadaceae ",
"Amaranthaceae ", "Anacardiaceae ", "Anaerolineaceae ", "Anaplasmataceae ",
"Anoplopomatidae ", "Anthelidae ", "Aphididae ", "Apidae ",
"Aquificaceae ", "Araceae ", "Archaeoglobaceae ", "Arthrodermataceae ",
"Ascarididae ", "Asteraceae ", "Aurantimonadaceae ", "Babesiidae ",
"Bacillaceae ", "Bacteriovoracaceae ", "Bacteroidaceae ",
"Balaenopteridae ", "Bangiaceae ", "Bartonellaceae ", "Beijerinckiaceae ",
"Beutenbergiaceae ", "Bifidobacteriaceae ", "Blattabacteriaceae ",
"Bombycidae ", "Bovidae ", "Brachyspiraceae ", "Braconidae ",
"Bradyrhizobiaceae ", "Branchiostomidae ", "Brassicaceae ",
"Brevibacteriaceae ", "Brucellaceae ", "Burkholderiaceae ",
"Campylobacteraceae ", "Candidatus Brocadiaceae ", "Canellaceae ",
"Canidae ", "Cardiobacteriaceae ", "Carnobacteriaceae ", "Catenulisporaceae ",
"Caulerpaceae ", "Caulobacteraceae ", "Caviidae ", "Cebidae ",
"Cellulomonadaceae ", "Cenarchaeaceae ", "Ceratobasidiaceae ",
"Cercopithecidae ", "Chaetomiaceae ", "Chlamydiaceae ", "Chlamydomonadaceae ",
"Chlorellaceae ", "Chlorobiaceae ", "Chloroflexaceae ", "Chromatiaceae ",
"Chrysiogenaceae ", "Cichlidae ", "Cionidae ", "Clavicipitaceae ",
"Clostridiaceae ", "Clostridiales Family XIII. Incertae Sedis ",
"Clostridiales Family XI. Incertae Sedis ", "Clostridiales Family XVIII. Incertae Sedis ",
"Clostridiales Family XVII. Incertae Sedis ", "Cobitidae ",
"Codonosigidae ", "Colwelliaceae ", "Comamonadaceae ", "Conexibacteraceae ",
"Cordycipitaceae ", "Coriobacteriaceae ", "Coriolaceae ",
"Corynebacteriaceae ", "Coxiellaceae ", "Cricetidae ", "Cryomorphaceae ",
"Cryptosporidiidae ", "Culicidae ", "Curculionidae ", "Cyanidiaceae ",
"Cyclobacteriaceae ", "Cyprinidae ", "Cystobacteraceae ",
"Cytophagaceae ", "Daphniidae ", "Dasyuridae ", "Debaryomycetaceae ",
"Deferribacteraceae ", "Deinococcaceae ", "Deoclonidae ",
"Dermabacteraceae ", "Dermacoccaceae ", "Dermatophilaceae ",
"Desulfarculaceae ", "Desulfobacteraceae ", "Desulfobulbaceae ",
"Desulfohalobiaceae ", "Desulfomicrobiaceae ", "Desulfovibrionaceae ",
"Desulfurellaceae ", "Desulfurobacteriaceae ", "Desulfurococcaceae ",
"Desulfuromonadaceae ", "Dictyoglomaceae ", "Didelphidae ",
"Dietziaceae ", "Dipodascaceae ", "Drosophilidae ", "Ectocarpaceae ",
"Ectothiorhodospiraceae ", "Edwardsiidae ", "Elephantidae ",
"Elusimicrobiaceae ", "Enterobacteriaceae ", "Enterococcaceae ",
"Entomoplasmataceae ", "Equidae ", "Erysipelotrichaceae ",
"Erythrobacteraceae ", "Estrildidae ", "Eubacteriaceae ",
"Euphorbiaceae ", "Euplotidae ", "Fabaceae ", "Ferrimonadaceae ",
"Ferroplasmaceae ", "Fibrobacteraceae ", "Flammeovirgaceae ",
"Flavobacteriaceae ", "Formicidae ", "Francisellaceae ", "Frankiaceae ",
"Fucaceae ", "Funariaceae ", "Fusobacteriaceae ", "Galagidae ",
"Gallionellaceae ", "Gemmatimonadaceae ", "Geobacteraceae ",
"Geodermatophilaceae ", "Geometridae ", "Glomerellaceae ",
"Glycomycetaceae ", "Gordoniaceae ", "Gracillariidae ", "Haematococcaceae ",
"Hahellaceae ", "Halanaerobiaceae ", "Halobacteriaceae ",
"Halobacteroidaceae ", "Halomonadaceae ", "Haloplasmataceae ",
"Halothiobacillaceae ", "Harrimaniidae ", "Helicobacteraceae ",
"Heliobacteriaceae ", "Heptageniidae ", "Herpetosiphonaceae ",
"Herpotrichiellaceae ", "Hexamitidae ", "Holophagaceae ",
"Hominidae ", "Hyacinthaceae ", "Hydridae ", "Hydrogenophilaceae ",
"Hydrogenothermaceae ", "Hylobatidae ", "Hyphomicrobiaceae ",
"Hyphomonadaceae ", "Hypocreaceae ", "Hypotrichomonadidae ",
"Ictaluridae ", "Idiomarinaceae ", "Iguanidae ", "Intrasporangiaceae ",
"Jonesiaceae ", "Juncaginaceae ", "Kineosporiaceae ", "Kofleriaceae ",
"Ktedonobacteraceae ", "Lachnospiraceae ", "Lactobacillaceae ",
"Lamiaceae ", "Lasiocampidae ", "Lasiosphaeriaceae ", "Legionellaceae ",
"Lentisphaeraceae ", "Lepidoziaceae ", "Leporidae ", "Leptospiraceae ",
"Leptotrichiaceae ", "Leuconostocaceae ", "Liliaceae ", "Listeriaceae ",
"Marasmiaceae ", "Marattiaceae ", "Marinilabiaceae ", "Mariprofundaceae ",
"Megachilidae ", "Melampsoraceae ", "Methanobacteriaceae ",
"Methanocaldococcaceae ", "Methanocellaceae ", "Methanococcaceae ",
"Methanocorpusculaceae ", "Methanomicrobiaceae ", "Methanopyraceae ",
"Methanosaetaceae ", "Methanosarcinaceae ", "Methanospirillaceae ",
"Methylacidiphilaceae ", "Methylobacteriaceae ", "Methylococcaceae ",
"Methylocystaceae ", "Methylophilaceae ", "Metschnikowiaceae ",
"Microbacteriaceae ", "Micrococcaceae ", "Micromonosporaceae ",
"Montiaceae ", "Moraxellaceae ", "Moritellaceae ", "Muridae ",
"Mycobacteriaceae ", "Mycoplasmataceae ", "Mycosphaerellaceae ",
"Myoviridae ", "Myxococcaceae ", "Nakamurellaceae ", "Nannocystaceae ",
"Natranaerobiaceae ", "Nautiliaceae ", "Nectriaceae ", "Neisseriaceae ",
"Niphatidae ", "Nitrosomonadaceae ", "Nitrosopumilaceae ",
"Nitrospiraceae ", "Nocardiaceae ", "Nocardioidaceae ", "Nocardiopsaceae ",
"Noctuidae ", "Nostocaceae ", "Nymphalidae ", "Oceanospirillaceae ",
"Onchocercidae ", "Oocystaceae ", "Opisthorchiidae ", "Opitutaceae ",
"Orbiliaceae ", "Orchidaceae ", "Ornithorhynchidae ", "Orthodontiaceae ",
"Oscillochloridaceae ", "Oscillospiraceae ", "Oxalobacteraceae ",
"Paenibacillaceae ", "Parachlamydiaceae ", "Parmeliaceae ",
"Parvularculaceae ", "Pasteurellaceae ", "Patulibacteraceae ",
"Paulinellidae ", "Pedinomonadaceae ", "Pelobacteraceae ",
"Pentatomidae ", "Peptococcaceae ", "Peptostreptococcaceae ",
"Perkinsidae ", "Phaeosphaeriaceae ", "Phaffomycetaceae ",
"Phasianidae ", "Phycodnaviridae ", "Phyllobacteriaceae ",
"Pieridae ", "Pinaceae ", "Pipidae ", "Piscirickettsiaceae ",
"Planctomycetaceae ", "Planococcaceae ", "Plectosphaerellaceae ",
"Pleosporaceae ", "Poaceae ", "Polyangiaceae ", "Porphyromonadaceae ",
"Prevotellaceae ", "Prochlorococcaceae ", "Promicromonosporaceae ",
"Propionibacteriaceae ", "Psathyrellaceae ", "Pseudoalteromonadaceae ",
"Pseudomonadaceae ", "Pseudonocardiaceae ", "Psychromonadaceae ",
"Pteridaceae ", "Pteromalidae ", "Puniceicoccaceae ", "Rhabditidae ",
"Rhacocarpaceae ", "Rhizobiaceae ", "Rhodobacteraceae ", "Rhodocyclaceae ",
"Rhodospirillaceae ", "Rhodothermaceae ", "Rickettsiaceae ",
"Rikenellaceae ", "Rubrobacteraceae ", "Ruminococcaceae ",
"Rutaceae ", "Saccharomycetaceae ", "Salicaceae ", "Salinisphaeraceae ",
"Sanguibacteraceae ", "Saprospiraceae ", "Sarcocystidae ",
"Saturniidae ", "Schizophyllaceae ", "Schizosaccharomycetaceae ",
"Sclerotiniaceae ", "Segniliparaceae ", "Selaginellaceae ",
"Shewanellaceae ", "Simaroubaceae ", "Simuliidae ", "Siphoviridae ",
"Solanaceae ", "Solibacteraceae ", "Sordariaceae ", "Sphaeriidae ",
"Sphaerobacteraceae ", "Sphingobacteriaceae ", "Sphingomonadaceae ",
"Spirochaetaceae ", "Spiroplasmataceae ", "Sporolactobacillaceae ",
"Staphylococcaceae ", "Streptococcaceae ", "Streptomycetaceae ",
"Streptosporangiaceae ", "Strongylocentrotidae ", "Succinivibrionaceae ",
"Suidae ", "Sulfolobaceae ", "Sutterellaceae ", "Synergistaceae ",
"Syntrophaceae ", "Syntrophobacteraceae ", "Syntrophomonadaceae ",
"Tenebrionidae ", "Tetraodontidae ", "Thalassiosiraceae ",
"Thermaceae ", "Thermoactinomycetaceae ", "Thermoanaerobacteraceae ",
"Thermoanaerobacterales Family III. Incertae Sedis ", "Thermoanaerobacterales Family IV. Incertae Sedis ",
"Thermococcaceae ", "Thermodesulfobacteriaceae ", "Thermodesulfobiaceae ",
"Thermofilaceae ", "Thermomicrobiaceae ", "Thermomonosporaceae ",
"Thermoplasmataceae ", "Thermoproteaceae ", "Thermotogaceae ",
"Thiotrichaceae ", "Tremellaceae ", "Trichocomaceae ", "Tricholomataceae ",
"Trueperaceae ", "Trypanosomatidae ", "Tsukamurellaceae ",
"Tuberaceae ", "Ulvaceae ", "unclassified (derived from Acidobacteria) ",
"unclassified (derived from Actinobacteria (class)) ", "unclassified (derived from Actinomycetales) ",
"unclassified (derived from Alphaproteobacteria) ", "unclassified (derived from Alteromonadales) ",
"unclassified (derived from Archaea) ", "unclassified (derived from Bacillales) ",
"unclassified (derived from Bacteria) ", "unclassified (derived from Bacteroidales) ",
"unclassified (derived from Bacteroidetes) ", "unclassified (derived from Betaproteobacteria) ",
"unclassified (derived from Burkholderiales) ", "unclassified (derived from Campylobacterales) ",
"unclassified (derived from Chlorophyceae) ", "unclassified (derived from Chroococcales) ",
"unclassified (derived from Clostridiales) ", "unclassified (derived from Cnidaria) ",
"unclassified (derived from Crenarchaeota) ", "unclassified (derived from Dehalococcoidetes) ",
"unclassified (derived from Deltaproteobacteria) ", "unclassified (derived from Dictyosteliida) ",
"unclassified (derived from Epsilonproteobacteria) ", "unclassified (derived from Eukaryota) ",
"unclassified (derived from Euryarchaeota) ", "unclassified (derived from Flavobacteriales) ",
"unclassified (derived from Flavobacteriia) ", "unclassified (derived from Gammaproteobacteria) ",
"unclassified (derived from Gloeobacterales) ", "unclassified (derived from Haemosporida) ",
"unclassified (derived from Halobacteriales) ", "unclassified (derived from Hypocreales) ",
"unclassified (derived from Ichthyosporea) ", "unclassified (derived from Mamiellales) ",
"unclassified (derived from Methanomicrobiales) ", "unclassified (derived from Methylophilales) ",
"unclassified (derived from Microthamniales) ", "unclassified (derived from Myxococcales) ",
"unclassified (derived from Oedogoniales) ", "unclassified (derived from Onygenales) ",
"unclassified (derived from Oscillatoriales) ", "unclassified (derived from other sequences) ",
"unclassified (derived from Peronosporales) ", "unclassified (derived from Placozoa) ",
"unclassified (derived from Poribacteria) ", "unclassified (derived from Proteobacteria) ",
"unclassified (derived from Rhizophydiales) ", "unclassified (derived from Rhodobacterales) ",
"unclassified (derived from Rickettsiales) ", "unclassified (derived from Saccharomycetales) ",
"unclassified (derived from Spartobacteria) ", "unclassified (derived from Sphingobacteriales) ",
"unclassified (derived from Sphingobacteriia) ", "unclassified (derived from Spirochaetales) ",
"unclassified (derived from Stigonematales) ", "unclassified (derived from Synergistetes) ",
"unclassified (derived from Thaumarchaeota) ", "unclassified (derived from Thermotogales) ",
"unclassified (derived from unclassified sequences) ", "unclassified (derived from Verrucomicrobiales) ",
"unclassified (derived from Vibrionales) ", "unclassified (derived from Viruses) ",
"Ustilaginaceae ", "Vahlkampfiidae ", "Veillonellaceae ",
"Verrucomicrobiaceae ", "Verrucomicrobia subdivision 3 ", "Vespertilionidae ",
"Vibrionaceae ", "Victivallaceae ", "Vitaceae ", "Volvocaceae ",
"Waddliaceae ", "Woodsiaceae ", "Xanthobacteraceae ", "Xanthomonadaceae ",
"Zygaenidae ", "Zygophyllaceae "), class = "factor"), V3 = c(0.19,
0.11, 0.06, 0.06, 0.04)), .Names = c("V1", "V2", "V3"), row.names = c(NA,
5L), class = "data.frame")