6

我们可以使用以下命令下载所有 nltk 数据:

> import nltk
> nltk.download('all')

或使用特定数据:

> nltk.download('punkt')
> nltk.download('maxent_treebank_pos_tagger')

但我想下载除“corpara”文件之外的所有数据,例如 - 所有块化器、语法器、模型、词干分析器、标记器、标记器等

没有下载器 UI 有什么办法吗?就像是,

> nltk.download('all-taggers')
4

1 回答 1

2

列出所有语料库 ID 并设置_status_cache[pkg.id] = 'installed'

它将所有语料库的状态值设置为“已安装”,当我们使用nltk.download().

如果您不确定需要哪个语料库/包,而不是下载所有语料库和模型,请使用nltk.download('popular').

import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('popular')

下载特定文件夹的所有包。

import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)
于 2016-07-30T19:55:27.297 回答