我正在使用依赖树解析器制作应用程序。实际上,解析器是这样的: Parser Stanford,但它很少更改我要解析的句子中某些单词的一两个字母。这对我来说是个大麻烦,因为我在这些变化中看不到任何模式,并且我需要与我的句子中的单词相同的依赖树。
我所看到的只是一些单词有这些问题。我正在使用推文数据库。所以,我在这个数据中有很多语法错误。例如,主题标签“#AllAmericanhumour”变为 AllAmericanhumor。它错过了一个字母(u)。
我能做些什么来解决这个问题吗?在我的第一个观点中,我认为使用编辑距离算法,但我认为这可能是一种更简单的方法。
提前谢谢大家