-2

我有一个大数据集,我需要在饼图中表示它。所以我正在寻找选择前 25 行并将所有剩余行汇总在一个新标签中的方法 [如“其他”]。数据是这样的:

23527   Streptococcaceae     0.19
13871   Neisseriaceae        0.11
7197    Enterobacteriaceae   0.06
6914    Pasteurellaceae      0.06
5141    Actinomycetaceae     0.04
4970    Corynebacteriaceae   0.04
4010    Veillonellaceae      0.03
3263    Lactobacillaceae     0.03
3178    Burkholderiaceae     0.03
2753    Mycobacteriaceae     0.02
2574    Streptomycetaceae    0.02
2330    Bacillaceae          0.02
2008    Micrococcaceae       0.02
1952    Vibrionaceae         0.02
1606    Enterococcaceae      0.01
1382    Pseudomonadaceae     0.01
1261    Flavobacteriaceae    0.01
1243    Clostridiaceae       0.01
1218    Bifidobacteriaceae   0.01
1114    Nocardiaceae         0.01
1104    Propionibacteriaceae 0.01
1076    Prevotellaceae       0.01
[...]

第一行是这个词出现的次数,第三行是计数的相对百分比。我想得到这样的东西:

23527   Streptococcaceae     0.19
13871   Neisseriaceae        0.11
7197    Enterobacteriaceae   0.06
6914    Pasteurellaceae      0.06
5141    Actinomycetaceae     0.04
4970    Corynebacteriaceae   0.04
4010    Veillonellaceae      0.03
3263    Lactobacillaceae     0.03
3178    Burkholderiaceae     0.03
2753    Mycobacteriaceae     0.02
2574    Streptomycetaceae    0.02
2330    Bacillaceae          0.02
2008    Micrococcaceae       0.02
3000    Others               0.12

是否可以在 R 中执行此操作,或者哪种方法更好?提前致谢!

(编辑)

完整代码:

    family <-as.data.frame (read.table ("Taxonomy_Family_info", sep="\t"))
     piedat <- rbind(family[1:25, ],
                    as.data.frame(c(sum(family[26:nrow(family),1]),
                                    "Others",
                                    sum(family[26:nrow(family),3]))))
    > dput(head(family,5))
structure(list(V1 = c(23527L, 13871L, 7197L, 6914L, 5141L), V2 = structure(c(359L, 
256L, 136L, 283L, 9L), .Label = c("-  ", "Acetobacteraceae  ", 
"Acholeplasmataceae  ", "Acidaminococcaceae  ", "Acidimicrobiaceae  ", 
"Acidithiobacillaceae  ", "Acidobacteriaceae  ", "Acidothermaceae  ", 
"Actinomycetaceae  ", "Adoxaceae  ", "Adrianichthyidae  ", "Aerococcaceae  ", 
"Aeromonadaceae  ", "Ajellomycetaceae  ", "Albuginaceae  ", "Alcaligenaceae  ", 
"Alcanivoracaceae  ", "Alicyclobacillaceae  ", "Alteromonadaceae  ", 
"Amaranthaceae  ", "Anacardiaceae  ", "Anaerolineaceae  ", "Anaplasmataceae  ", 
"Anoplopomatidae  ", "Anthelidae  ", "Aphididae  ", "Apidae  ", 
"Aquificaceae  ", "Araceae  ", "Archaeoglobaceae  ", "Arthrodermataceae  ", 
"Ascarididae  ", "Asteraceae  ", "Aurantimonadaceae  ", "Babesiidae  ", 
"Bacillaceae  ", "Bacteriovoracaceae  ", "Bacteroidaceae  ", 
"Balaenopteridae  ", "Bangiaceae  ", "Bartonellaceae  ", "Beijerinckiaceae  ", 
"Beutenbergiaceae  ", "Bifidobacteriaceae  ", "Blattabacteriaceae  ", 
"Bombycidae  ", "Bovidae  ", "Brachyspiraceae  ", "Braconidae  ", 
"Bradyrhizobiaceae  ", "Branchiostomidae  ", "Brassicaceae  ", 
"Brevibacteriaceae  ", "Brucellaceae  ", "Burkholderiaceae  ", 
"Campylobacteraceae  ", "Candidatus Brocadiaceae  ", "Canellaceae  ", 
"Canidae  ", "Cardiobacteriaceae  ", "Carnobacteriaceae  ", "Catenulisporaceae  ", 
"Caulerpaceae  ", "Caulobacteraceae  ", "Caviidae  ", "Cebidae  ", 
"Cellulomonadaceae  ", "Cenarchaeaceae  ", "Ceratobasidiaceae  ", 
"Cercopithecidae  ", "Chaetomiaceae  ", "Chlamydiaceae  ", "Chlamydomonadaceae  ", 
"Chlorellaceae  ", "Chlorobiaceae  ", "Chloroflexaceae  ", "Chromatiaceae  ", 
"Chrysiogenaceae  ", "Cichlidae  ", "Cionidae  ", "Clavicipitaceae  ", 
"Clostridiaceae  ", "Clostridiales Family XIII. Incertae Sedis  ", 
"Clostridiales Family XI. Incertae Sedis  ", "Clostridiales Family XVIII. Incertae Sedis  ", 
"Clostridiales Family XVII. Incertae Sedis  ", "Cobitidae  ", 
"Codonosigidae  ", "Colwelliaceae  ", "Comamonadaceae  ", "Conexibacteraceae  ", 
"Cordycipitaceae  ", "Coriobacteriaceae  ", "Coriolaceae  ", 
"Corynebacteriaceae  ", "Coxiellaceae  ", "Cricetidae  ", "Cryomorphaceae  ", 
"Cryptosporidiidae  ", "Culicidae  ", "Curculionidae  ", "Cyanidiaceae  ", 
"Cyclobacteriaceae  ", "Cyprinidae  ", "Cystobacteraceae  ", 
"Cytophagaceae  ", "Daphniidae  ", "Dasyuridae  ", "Debaryomycetaceae  ", 
"Deferribacteraceae  ", "Deinococcaceae  ", "Deoclonidae  ", 
"Dermabacteraceae  ", "Dermacoccaceae  ", "Dermatophilaceae  ", 
"Desulfarculaceae  ", "Desulfobacteraceae  ", "Desulfobulbaceae  ", 
"Desulfohalobiaceae  ", "Desulfomicrobiaceae  ", "Desulfovibrionaceae  ", 
"Desulfurellaceae  ", "Desulfurobacteriaceae  ", "Desulfurococcaceae  ", 
"Desulfuromonadaceae  ", "Dictyoglomaceae  ", "Didelphidae  ", 
"Dietziaceae  ", "Dipodascaceae  ", "Drosophilidae  ", "Ectocarpaceae  ", 
"Ectothiorhodospiraceae  ", "Edwardsiidae  ", "Elephantidae  ", 
"Elusimicrobiaceae  ", "Enterobacteriaceae  ", "Enterococcaceae  ", 
"Entomoplasmataceae  ", "Equidae  ", "Erysipelotrichaceae  ", 
"Erythrobacteraceae  ", "Estrildidae  ", "Eubacteriaceae  ", 
"Euphorbiaceae  ", "Euplotidae  ", "Fabaceae  ", "Ferrimonadaceae  ", 
"Ferroplasmaceae  ", "Fibrobacteraceae  ", "Flammeovirgaceae  ", 
"Flavobacteriaceae  ", "Formicidae  ", "Francisellaceae  ", "Frankiaceae  ", 
"Fucaceae  ", "Funariaceae  ", "Fusobacteriaceae  ", "Galagidae  ", 
"Gallionellaceae  ", "Gemmatimonadaceae  ", "Geobacteraceae  ", 
"Geodermatophilaceae  ", "Geometridae  ", "Glomerellaceae  ", 
"Glycomycetaceae  ", "Gordoniaceae  ", "Gracillariidae  ", "Haematococcaceae  ", 
"Hahellaceae  ", "Halanaerobiaceae  ", "Halobacteriaceae  ", 
"Halobacteroidaceae  ", "Halomonadaceae  ", "Haloplasmataceae  ", 
"Halothiobacillaceae  ", "Harrimaniidae  ", "Helicobacteraceae  ", 
"Heliobacteriaceae  ", "Heptageniidae  ", "Herpetosiphonaceae  ", 
"Herpotrichiellaceae  ", "Hexamitidae  ", "Holophagaceae  ", 
"Hominidae  ", "Hyacinthaceae  ", "Hydridae  ", "Hydrogenophilaceae  ", 
"Hydrogenothermaceae  ", "Hylobatidae  ", "Hyphomicrobiaceae  ", 
"Hyphomonadaceae  ", "Hypocreaceae  ", "Hypotrichomonadidae  ", 
"Ictaluridae  ", "Idiomarinaceae  ", "Iguanidae  ", "Intrasporangiaceae  ", 
"Jonesiaceae  ", "Juncaginaceae  ", "Kineosporiaceae  ", "Kofleriaceae  ", 
"Ktedonobacteraceae  ", "Lachnospiraceae  ", "Lactobacillaceae  ", 
"Lamiaceae  ", "Lasiocampidae  ", "Lasiosphaeriaceae  ", "Legionellaceae  ", 
"Lentisphaeraceae  ", "Lepidoziaceae  ", "Leporidae  ", "Leptospiraceae  ", 
"Leptotrichiaceae  ", "Leuconostocaceae  ", "Liliaceae  ", "Listeriaceae  ", 
"Marasmiaceae  ", "Marattiaceae  ", "Marinilabiaceae  ", "Mariprofundaceae  ", 
"Megachilidae  ", "Melampsoraceae  ", "Methanobacteriaceae  ", 
"Methanocaldococcaceae  ", "Methanocellaceae  ", "Methanococcaceae  ", 
"Methanocorpusculaceae  ", "Methanomicrobiaceae  ", "Methanopyraceae  ", 
"Methanosaetaceae  ", "Methanosarcinaceae  ", "Methanospirillaceae  ", 
"Methylacidiphilaceae  ", "Methylobacteriaceae  ", "Methylococcaceae  ", 
"Methylocystaceae  ", "Methylophilaceae  ", "Metschnikowiaceae  ", 
"Microbacteriaceae  ", "Micrococcaceae  ", "Micromonosporaceae  ", 
"Montiaceae  ", "Moraxellaceae  ", "Moritellaceae  ", "Muridae  ", 
"Mycobacteriaceae  ", "Mycoplasmataceae  ", "Mycosphaerellaceae  ", 
"Myoviridae  ", "Myxococcaceae  ", "Nakamurellaceae  ", "Nannocystaceae  ", 
"Natranaerobiaceae  ", "Nautiliaceae  ", "Nectriaceae  ", "Neisseriaceae  ", 
"Niphatidae  ", "Nitrosomonadaceae  ", "Nitrosopumilaceae  ", 
"Nitrospiraceae  ", "Nocardiaceae  ", "Nocardioidaceae  ", "Nocardiopsaceae  ", 
"Noctuidae  ", "Nostocaceae  ", "Nymphalidae  ", "Oceanospirillaceae  ", 
"Onchocercidae  ", "Oocystaceae  ", "Opisthorchiidae  ", "Opitutaceae  ", 
"Orbiliaceae  ", "Orchidaceae  ", "Ornithorhynchidae  ", "Orthodontiaceae  ", 
"Oscillochloridaceae  ", "Oscillospiraceae  ", "Oxalobacteraceae  ", 
"Paenibacillaceae  ", "Parachlamydiaceae  ", "Parmeliaceae  ", 
"Parvularculaceae  ", "Pasteurellaceae  ", "Patulibacteraceae  ", 
"Paulinellidae  ", "Pedinomonadaceae  ", "Pelobacteraceae  ", 
"Pentatomidae  ", "Peptococcaceae  ", "Peptostreptococcaceae  ", 
"Perkinsidae  ", "Phaeosphaeriaceae  ", "Phaffomycetaceae  ", 
"Phasianidae  ", "Phycodnaviridae  ", "Phyllobacteriaceae  ", 
"Pieridae  ", "Pinaceae  ", "Pipidae  ", "Piscirickettsiaceae  ", 
"Planctomycetaceae  ", "Planococcaceae  ", "Plectosphaerellaceae  ", 
"Pleosporaceae  ", "Poaceae  ", "Polyangiaceae  ", "Porphyromonadaceae  ", 
"Prevotellaceae  ", "Prochlorococcaceae  ", "Promicromonosporaceae  ", 
"Propionibacteriaceae  ", "Psathyrellaceae  ", "Pseudoalteromonadaceae  ", 
"Pseudomonadaceae  ", "Pseudonocardiaceae  ", "Psychromonadaceae  ", 
"Pteridaceae  ", "Pteromalidae  ", "Puniceicoccaceae  ", "Rhabditidae  ", 
"Rhacocarpaceae  ", "Rhizobiaceae  ", "Rhodobacteraceae  ", "Rhodocyclaceae  ", 
"Rhodospirillaceae  ", "Rhodothermaceae  ", "Rickettsiaceae  ", 
"Rikenellaceae  ", "Rubrobacteraceae  ", "Ruminococcaceae  ", 
"Rutaceae  ", "Saccharomycetaceae  ", "Salicaceae  ", "Salinisphaeraceae  ", 
"Sanguibacteraceae  ", "Saprospiraceae  ", "Sarcocystidae  ", 
"Saturniidae  ", "Schizophyllaceae  ", "Schizosaccharomycetaceae  ", 
"Sclerotiniaceae  ", "Segniliparaceae  ", "Selaginellaceae  ", 
"Shewanellaceae  ", "Simaroubaceae  ", "Simuliidae  ", "Siphoviridae  ", 
"Solanaceae  ", "Solibacteraceae  ", "Sordariaceae  ", "Sphaeriidae  ", 
"Sphaerobacteraceae  ", "Sphingobacteriaceae  ", "Sphingomonadaceae  ", 
"Spirochaetaceae  ", "Spiroplasmataceae  ", "Sporolactobacillaceae  ", 
"Staphylococcaceae  ", "Streptococcaceae  ", "Streptomycetaceae  ", 
"Streptosporangiaceae  ", "Strongylocentrotidae  ", "Succinivibrionaceae  ", 
"Suidae  ", "Sulfolobaceae  ", "Sutterellaceae  ", "Synergistaceae  ", 
"Syntrophaceae  ", "Syntrophobacteraceae  ", "Syntrophomonadaceae  ", 
"Tenebrionidae  ", "Tetraodontidae  ", "Thalassiosiraceae  ", 
"Thermaceae  ", "Thermoactinomycetaceae  ", "Thermoanaerobacteraceae  ", 
"Thermoanaerobacterales Family III. Incertae Sedis  ", "Thermoanaerobacterales Family IV. Incertae Sedis  ", 
"Thermococcaceae  ", "Thermodesulfobacteriaceae  ", "Thermodesulfobiaceae  ", 
"Thermofilaceae  ", "Thermomicrobiaceae  ", "Thermomonosporaceae  ", 
"Thermoplasmataceae  ", "Thermoproteaceae  ", "Thermotogaceae  ", 
"Thiotrichaceae  ", "Tremellaceae  ", "Trichocomaceae  ", "Tricholomataceae  ", 
"Trueperaceae  ", "Trypanosomatidae  ", "Tsukamurellaceae  ", 
"Tuberaceae  ", "Ulvaceae  ", "unclassified (derived from Acidobacteria)  ", 
"unclassified (derived from Actinobacteria (class))  ", "unclassified (derived from Actinomycetales)  ", 
"unclassified (derived from Alphaproteobacteria)  ", "unclassified (derived from Alteromonadales)  ", 
"unclassified (derived from Archaea)  ", "unclassified (derived from Bacillales)  ", 
"unclassified (derived from Bacteria)  ", "unclassified (derived from Bacteroidales)  ", 
"unclassified (derived from Bacteroidetes)  ", "unclassified (derived from Betaproteobacteria)  ", 
"unclassified (derived from Burkholderiales)  ", "unclassified (derived from Campylobacterales)  ", 
"unclassified (derived from Chlorophyceae)  ", "unclassified (derived from Chroococcales)  ", 
"unclassified (derived from Clostridiales)  ", "unclassified (derived from Cnidaria)  ", 
"unclassified (derived from Crenarchaeota)  ", "unclassified (derived from Dehalococcoidetes)  ", 
"unclassified (derived from Deltaproteobacteria)  ", "unclassified (derived from Dictyosteliida)  ", 
"unclassified (derived from Epsilonproteobacteria)  ", "unclassified (derived from Eukaryota)  ", 
"unclassified (derived from Euryarchaeota)  ", "unclassified (derived from Flavobacteriales)  ", 
"unclassified (derived from Flavobacteriia)  ", "unclassified (derived from Gammaproteobacteria)  ", 
"unclassified (derived from Gloeobacterales)  ", "unclassified (derived from Haemosporida)  ", 
"unclassified (derived from Halobacteriales)  ", "unclassified (derived from Hypocreales)  ", 
"unclassified (derived from Ichthyosporea)  ", "unclassified (derived from Mamiellales)  ", 
"unclassified (derived from Methanomicrobiales)  ", "unclassified (derived from Methylophilales)  ", 
"unclassified (derived from Microthamniales)  ", "unclassified (derived from Myxococcales)  ", 
"unclassified (derived from Oedogoniales)  ", "unclassified (derived from Onygenales)  ", 
"unclassified (derived from Oscillatoriales)  ", "unclassified (derived from other sequences)  ", 
"unclassified (derived from Peronosporales)  ", "unclassified (derived from Placozoa)  ", 
"unclassified (derived from Poribacteria)  ", "unclassified (derived from Proteobacteria)  ", 
"unclassified (derived from Rhizophydiales)  ", "unclassified (derived from Rhodobacterales)  ", 
"unclassified (derived from Rickettsiales)  ", "unclassified (derived from Saccharomycetales)  ", 
"unclassified (derived from Spartobacteria)  ", "unclassified (derived from Sphingobacteriales)  ", 
"unclassified (derived from Sphingobacteriia)  ", "unclassified (derived from Spirochaetales)  ", 
"unclassified (derived from Stigonematales)  ", "unclassified (derived from Synergistetes)  ", 
"unclassified (derived from Thaumarchaeota)  ", "unclassified (derived from Thermotogales)  ", 
"unclassified (derived from unclassified sequences)  ", "unclassified (derived from Verrucomicrobiales)  ", 
"unclassified (derived from Vibrionales)  ", "unclassified (derived from Viruses)  ", 
"Ustilaginaceae  ", "Vahlkampfiidae  ", "Veillonellaceae  ", 
"Verrucomicrobiaceae  ", "Verrucomicrobia subdivision 3  ", "Vespertilionidae  ", 
"Vibrionaceae  ", "Victivallaceae  ", "Vitaceae  ", "Volvocaceae  ", 
"Waddliaceae  ", "Woodsiaceae  ", "Xanthobacteraceae  ", "Xanthomonadaceae  ", 
"Zygaenidae  ", "Zygophyllaceae  "), class = "factor"), V3 = c(0.19, 
0.11, 0.06, 0.06, 0.04)), .Names = c("V1", "V2", "V3"), row.names = c(NA, 
5L), class = "data.frame")
4

1 回答 1

3

尝试这个:

假设您的数据在datdata.frame 上,并且按第一列降序排序。

piedat <- rbind(dat[1:25,],
                as.data.frame(c(sum(dat[26:nrow(dat),1]),
                                "Others",
                                sum(dat[26:nrow(dat),3]))))
于 2013-07-26T08:39:19.417 回答