我的想法是,给定一个单词变体和另一个单词的基本形式,从基本形式的单词变体中再现特征。
我已经能够从给定一组特征的基本形式产生一个单词变体,我的问题在于从原始单词变体中收集这些特征。
到目前为止,我的解决方法是使用 Stanford Parser 并过滤单词变体的 POS 标签,从而恢复一些(但不是大部分)特征。然后使用 SimpleNLG 我可以创建新的单词变体。
也欢迎提供这些功能的任何其他 Java 工具或库。
提前致谢
SimpleNLG 顾名思义……简单。您可能想看看在语义层面上处理语言的库。值得注意的例子有 OpenCCG ( http://openccg.sourceforge.net/ )。不过,这将是一些工作。