1

我想对带有大量文本缩写的原始大型语料库进行分类提取。

有一个名为taxize的 R 包。该软件包允许用户在许多分类数据源中搜索物种名称。

library('taxize')

#Get immediate children of Salmo
children("Salmo", db = 'ncbi')

#> $Salmo
#>    childtaxa_id                   childtaxa_name childtaxa_rank
#> 1       1509524  Salmo marmoratus x Salmo trutta        species
#> 2       1484545 Salmo cf. cenerinus BOLD:AAB3872        species
# 

# Get synonyms
synonyms("Acer drummondii", db="itis")

我的问题是:在文本中有很多缩写的情况下,是否可以使用taxize(或任何替代包)对文本数据进行分类提取?例如,我如何才能找到特定缩写词或概念的直系子代,该缩写词或概念在我的文本数据中很常见,但未在分类数据源(如“ncbi”和“itis”)中列出。

感谢您的评论和回答。

谢谢,山姆

4

0 回答 0