我正在使用 TreeTagger 来获取西班牙语单词的词条,但我观察到有太多单词没有按应有的方式进行转换。我想知道这个操作是如何工作的,如果它是使用决策树或机器学习算法等技术完成的,或者它只是包含一个带有相应引理的单词列表。有人知道吗?谢谢!!
问问题
282 次
1 回答
0
根据与 TreeTagger 的作者 H. Schmid 通过电子邮件进行的个人交流,您的问题的答案是:
词形还原功能基于XTAG 项目,其中包括一个形态分析器。在 XTAG 项目中,已经分析了几个语料库。考虑TreeTagger,尤其是Penn Treebank Corpus的分析似乎是相关的,因为这个语料是TreeTagger英文参数文件的训练语料。考虑到词形还原,词形只是简单地存储在词典中。TreeTagger 最终将这个词典用作查找表。
因此,使用 TreeTagger,您只能检索词典中可用的词条。
如果您需要除 TreeeTagger 中的选项之外的关于词形还原的其他功能,您将需要一个形态分析器,并且根据您的方法,一个合适的训练语料库,尽管这似乎不是强制性的,因为即使直接应用几个分析器也能很好地执行要分析的感兴趣的语料库。
于 2018-06-11T11:17:30.300 回答