我想使用 TreeTagger 模块在原始语料库上标记 POS 信息。
由于通过 Google Colab 使用 GPU 似乎更快,我安装了 TreeTagger 模块,但 Colab 代码无法找到 TreeTagger 目录。
错误类型是这样的: TreeTaggerError: Can't locate TreeTagger directory (and no TAGDIR specified)
请告诉我应该在哪里上传treetagger文件夹。
我想使用 TreeTagger 模块在原始语料库上标记 POS 信息。
由于通过 Google Colab 使用 GPU 似乎更快,我安装了 TreeTagger 模块,但 Colab 代码无法找到 TreeTagger 目录。
错误类型是这样的: TreeTaggerError: Can't locate TreeTagger directory (and no TAGDIR specified)
请告诉我应该在哪里上传treetagger文件夹。
您必须指定目录:
treetaggerwrapper.TreeTagger(TAGLANG='en', TAGDIR='treetagger/') # treetagger is the installation dir
在 Colab 中安装。
按照网站上的说明进行操作。
在 Colab 的一个单元格中,您必须输入以下内容(对于其他(非英语)语言,请为参数文件添加其他链接):
%%bash
mkdir treetagger
cd treetagger
# Download the tagger package for your system (PC-Linux, Mac OS-X, ARM64, ARMHF, ARM-Android, PPC64le-Linux).
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/tree-tagger-linux-3.2.4.tar.gz
tar -xzvf tree-tagger-linux-3.2.4.tar.gz
# Download the tagging scripts into the same directory.
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/tagger-scripts.tar.gz
gunzip tagger-scripts.tar.gz
# Download the installation script install-tagger.sh.
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/install-tagger.sh
# Download the parameter files for the languages you want to process.
# list of all files (parameter files) https://cis.lmu.de/~schmid/tools/TreeTagger/#parfiles
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/english.par.gz
sh install-tagger.sh
cd ..
sudo pip install treetaggerwrapper
在下面的另一个单元格中,您可以检查安装:
>>> import pprint # For proper print of sequences.
>>> import treetaggerwrapper
>>> #1) build a TreeTagger wrapper:
>>> tagger = treetaggerwrapper.TreeTagger(TAGLANG='en', TAGDIR='treetagger/')
>>> #2) tag your text.
>>> tags = tagger.tag_text("This is a very short text to tag.")
>>> #3) use the tags list... (list of string output from TreeTagger).
>>> pprint.pprint(tags)