除了少数例外,人们会在 Word (.doc) 文档中找到物种列表(尤其是鸟类),而且它们的结构通常以一种对任何类型的数据分析都无用的方式进行构建。
列表将是这样的,带有空格和其他所有内容:它包括分类(科)和具有通用和科学名称的物种。
数据
1 STRUTHIONIDAE (1)
Common Ostrich Struthio camelus
2 DIOMEDEIDAE (5 – 1 + 1)
++Northern Royal Albatross Diomedea sanfordi
Black-browed Albatross Thalassarche melanophris
Shy Albatross Thalassarche cauta
Grey-headed Albatross Thalassarche chrysostoma
Atlantic Yellow-nosed Albatross Thalassarche chlororhynchos
3 Procellaridae (11 – 1 + 1)
Southern Giant Petrel Macronectes giganteus
Pintado Petrel Daption capense
Great-winged Petrel Pterodroma macroptera
Soft-plumaged Petrel Pterodroma mollis
Antarctic Prion Pachyptila desolata
White-chinned Petrel Procellaria aequinoctialis
++Spectacled Petrel Procellaria conspicillata
Cory's Shearwater Calonectris [diomedea] borealis
Great Shearwater Puffinus gravis
Sooty Shearwater Puffinus griseus
Manx Shearwater Puffinus puffinus
4 HYDROBATIDAE (3)
Wilson's Storm-Petrel Oceanites oceanicus
British Storm-Petrel Hydrobates pelagicus
Leach's Storm-Petrel Oceanodroma leucorhoa
像这样的列表是技术报告、地理分布设计、区域保护状况、摘要等信息的非凡来源。这对于很少可用或发表的地区特别感兴趣(上面的例子是鸟类列表的一部分来自 www.birdsangola.org 的安哥拉)。如果格式正确,数据将得到更好的使用。数据框将是对数据进行任何后续分析的良好候选者。
我想将上面的列表转换为可用的东西,提取物种通用名、学名和分类科。data.frame 将是一个很好的、自然的候选者。