使用 NLTK 从法语句子中提取单词
在带有 Python3 的 WSL2 Ubuntu 下,我可以像这样下载 Punkt:
import nltk
nltk.download('punkt')
zip存档已在以下位置下载:
/home/my_username/nltk_data/tokenizers/punkt.zip
解压缩后,您就会将许多语言存储为 Pickle 的序列化对象。
现在有了:
tokenizer = nltk.data.load('path/to/punkt_folder/french.pickle')
您可以使用以下tokenizer._tokenize_words
方法:
words_generator = tokenizer._tokenize_words("Depuis huit jours, j'avais déchiré mes bottines Aux cailloux des chemins. J'entrais à Charleroi. - Au Cabaret-Vert : je demandai des tartines De beurre et du jambon qui fût à moitié froid.")
words = [word for word in words_generator]
words 是一个PunktToken
对象列表:
>>> words
[PunktToken('Depuis', type='depuis', linestart=True), PunktToken('huit', ), PunktToken('jours', ),... PunktToken('à', ), PunktToken('moitié', ), PunktToken('froid.', )]
>>> str_words = [str(w) for w in words]
>>> str_words
['Depuis', 'huit', 'jours', ',', 'j', "'avais", 'déchiré', 'mes', 'bottines', 'Aux', 'cailloux', 'des', 'chemins.', 'J', "'entrais", 'à', 'Charleroi.', '-', 'Au', 'Cabaret-Vert', ':', 'je', 'demandai', 'des', 'tartines', 'De', 'beurre', 'et', 'du', 'jambon', 'qui', 'fût', 'à', 'moitié', 'froid.']
nltk.pos_tag
与法语句子一起使用
OP 想要使用nltk.pos_tag
. 使用前面描述的方法是不可能的。
一种方法似乎是安装已用 JAVA 编码的Standford Tagger (在另一个SO 问题中找到)
下载最新版本的Standford Tagger(可在此处获得)
> wget https://nlp.stanford.edu/software/stanford-tagger-4.2.0.zip
解压缩后,您会得到一个如下所示的文件夹(OP 询问可用语言列表):
...
├── data
│ ....
├── models
...
│ ├── arabic-train.tagger
│ ├── arabic-train.tagger.props
│ ├── arabic.tagger
│ ├── arabic.tagger.props
│ ├── chinese-distsim.tagger
│ ├── chinese-distsim.tagger.props
│ ├── chinese-nodistsim.tagger
│ ├── chinese-nodistsim.tagger.props
│ ├── english-bidirectional-distsim.tagger
│ ├── english-bidirectional-distsim.tagger.props
│ ├── english-caseless-left3words-distsim.tagger
│ ├── english-caseless-left3words-distsim.tagger.props
│ ├── english-left3words-distsim.tagger
│ ├── english-left3words-distsim.tagger.props
│ ├── french-ud.tagger
│ ├── french-ud.tagger.props
│ ├── german-ud.tagger
│ ├── german-ud.tagger.props
│ ├── spanish-ud.tagger
│ └── spanish-ud.tagger.props
─ french-ud.tagger.props
...
├── stanford-postagger-4.2.0.jar
...
必须安装 Java,并且您必须知道在哪里。现在你可以这样做:
import os
from nltk.tag import StanfordPOSTagger
from textblob import TextBlob
jar = 'path/to/stanford-postagger-full-2020-11-17/stanford-postagger.jar'
model = 'path/to/stanford-postagger-full-2020-11-17/models/french-ud.tagger'
os.environ['JAVAHOME'] = '/path/to/java'
blob = TextBlob("""
Depuis huit jours, j'avais déchiré mes bottines Aux cailloux des chemins. J'entrais à Charleroi. - Au Cabaret-Vert : je demandai des tartines De beurre et du jambon qui fût à moitié froid.
""")
pos_tagger = StanfordPOSTagger(model, jar, encoding='utf8' )
res = pos_tagger.tag(blob.split())
print(res)
它将显示:
[('Depuis', 'ADP'), ('huit', 'NUM'), ('jours,', 'NOUN'), ("j'avais", 'ADJ'), ('déchiré', 'VERB'), ('mes', 'DET'), ('bottines', 'NOUN'), ('Aux', 'PROPN'), ('cailloux', 'VERB'), ('des', 'DET'), ('chemins.', 'NOUN'), ("J'entrais", 'ADJ'), ('à', 'ADP'), ('Charleroi.', 'PROPN'), ('-', 'PUNCT'), ('Au', 'PROPN'), ('Cabaret-Vert', 'PROPN'), (':', 'PUNCT'), ('je', 'PRON'), ('demandai', 'VERB'), ('des', 'DET'), ('tartines', 'NOUN'), ('De', 'ADP'), ('beurre', 'NOUN'), ('et', 'CCONJ'), ('du', 'DET'), ('jambon', 'NOUN'), ('qui', 'PRON'), ('fût', 'AUX'), ('à', 'ADP'), ('moitié', 'NOUN'), ('froid.', 'ADJ')]
瞧!