是否有任何用于俄语的现代词性标注器 + 依赖解析器?我需要一个能够处理纯文本和输出的工具或服务:
- 分句
- 划分为令牌
- 词性标签(欢迎使用细粒度的 MSD 标签)
- 引理(基本形式)
- 依赖角色标签
我需要该工具用于商业目的。它可以是具有训练有素的统计模型的开源项目,可用于商业目的(如果需要,可购买)或 Web API。最终它可能是具有专有模型的专有闭源二进制文件。俄语的解析模型比我在网上找到的都需要使用 TreeTagger,它 1)具有非常不友好的许可证,2)超过 20 年。
是否有任何用于俄语的现代词性标注器 + 依赖解析器?我需要一个能够处理纯文本和输出的工具或服务:
我需要该工具用于商业目的。它可以是具有训练有素的统计模型的开源项目,可用于商业目的(如果需要,可购买)或 Web API。最终它可能是具有专有模型的专有闭源二进制文件。俄语的解析模型比我在网上找到的都需要使用 TreeTagger,它 1)具有非常不友好的许可证,2)超过 20 年。
为了构建一个(好的)依赖解析器,你需要一个依赖树库。所有构建依赖解析器的团队都可以访问此类树库,但不允许他们传递数据。因此,您可以获得解析器,但通常不是预训练模型。
这就是为什么你必须自己训练一个模型。对于俄语,存在依赖树库 (SynTagRus)。我不知道您是否能够将其用于商业目的。也许这些网站会帮助你:
https://github.com/UniversalDependencies/UD_Russian-SynTagRus
https://habrahabr.ru/post/148124/
http://www.ruscorpora.ru/index.html
如果您设法获取数据,那么训练自己的模型是一项非常容易的任务。要么在这里再问一遍,要么你肯定会在互联网上找到足够多的指南(无论是俄语还是任何其他语言,训练解析器都是一样的)