我想对一堆意见进行词形分析。据我所知,nltk 无法对不同于英语的语言中的单词进行词形还原。稍微研究了一下,我发现了pattern,它可以将多种语言中的单词进行词形还原。如何使用模式对一些文本进行词形还原?
这是我的测试语料库:
# -- coding: utf-8 --
from pattern.es import lemma #unresolved reference
opinions = ["Este es un post de juguetes de aprendizaje \
automático. En realidad, contiene no mucho \
material interesante.",
"Las bases de datos de imágenes proporcionan \
capacidades de almacenamiento.",
"La mayoría de las bases de datos de imágenes \
imágenes seguras de forma permanente.",
"Los datos de imagen de tienda bases de datos.",
"Imagina almacenar bases de datos de bases de \
datos de imágenes. Almacenar datos. Bases de datos \
de imágenes de datos de la tienda."]
print lemma(opiniones)
输出:
File "/Users/user/PycharmProjects/Pruebas/Lemmatizacion.py", line 18, in <module>
print lemma(opiniones)
File "/usr/local/lib/python2.7/site-packages/pattern/text/__init__.py", line 1591, in lemma
if verb.lower() in self._inverse:
AttributeError: 'list' object has no attribute 'lower'
我怎样才能词形还原opinions
?