我想对带有大量文本缩写的原始大型语料库进行分类提取。
有一个名为taxize的 R 包。该软件包允许用户在许多分类数据源中搜索物种名称。
library('taxize')
#Get immediate children of Salmo
children("Salmo", db = 'ncbi')
#> $Salmo
#> childtaxa_id childtaxa_name childtaxa_rank
#> 1 1509524 Salmo marmoratus x Salmo trutta species
#> 2 1484545 Salmo cf. cenerinus BOLD:AAB3872 species
#
# Get synonyms
synonyms("Acer drummondii", db="itis")
我的问题是:在文本中有很多缩写的情况下,是否可以使用taxize(或任何替代包)对文本数据进行分类提取?例如,我如何才能找到特定缩写词或概念的直系子代,该缩写词或概念在我的文本数据中很常见,但未在分类数据源(如“ncbi”和“itis”)中列出。
感谢您的评论和回答。
谢谢,山姆