r - R中文本数据的分类提取

翻译自：https://stackoverflow.com/questions/47086127 2017-11-02T23:22:49.203

167 次

我想对带有大量文本缩写的原始大型语料库进行分类提取。

有一个名为taxize的 R 包。该软件包允许用户在许多分类数据源中搜索物种名称。

library('taxize')

#Get immediate children of Salmo
children("Salmo", db = 'ncbi')

#> $Salmo
#>    childtaxa_id                   childtaxa_name childtaxa_rank
#> 1       1509524  Salmo marmoratus x Salmo trutta        species
#> 2       1484545 Salmo cf. cenerinus BOLD:AAB3872        species
# 

# Get synonyms
synonyms("Acer drummondii", db="itis")

我的问题是：在文本中有很多缩写的情况下，是否可以使用taxize（或任何替代包）对文本数据进行分类提取？例如，我如何才能找到特定缩写词或概念的直系子代，该缩写词或概念在我的文本数据中很常见，但未在分类数据源（如“ncbi”和“itis”）中列出。

感谢您的评论和回答。

谢谢，山姆

r - R中文本数据的分类提取

0 回答 0

Related

Reference