我是 Python 和 NLP 世界的新手。Google 最近发布的 Syntaxnet 引起了我的兴趣。但是,我在理解有关语法网和相关工具(nltk 等)的文档时遇到了很多麻烦。
我的目标:给定诸如“Wilbur kicked the ball”之类的输入,我想提取词根动词(kicked)和它与“the ball”相关的对象。
我偶然发现了“spacy.io”,这个可视化似乎封装了我想要完成的事情:POS 标记一个字符串,并将其加载到某种树结构中,以便我可以从根动词开始并遍历句子。
我玩弄了syntaxnet/demo.sh,并按照这个线程中的建议注释掉了最后几行以获得conll输出。
然后我在 python 脚本中加载了这个输入(我自己拼凑在一起,可能不正确):
import nltk
from nltk.corpus import ConllCorpusReader
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = ConllCorpusReader('/Users/dgourlay/development/nlp','input.conll', columntypes)
我看到我可以访问 corp.tagged_words(),但单词之间没有关系。现在我被困住了!如何将此语料库加载到树型结构中?
任何帮助深表感谢!