我有一个关于阿拉伯语文本分块的项目我想知道是否可以使用 NLTK 来提取阿拉伯语文本的块 NP、VP、PP 以及如何使用阿拉伯语语料库。请任何人帮助我!
问问题
820 次
1 回答
1
它远非完美(主要是因为阿拉伯语的语言特性与英语的语言特性有很大不同),但一名计算机科学专业的学生在 2011 年开发了一个看起来很有前途的阿拉伯语分析工具包。他开发了“一个由词性标注器和形态分析器组成的集成解决方案。该工具包接受了古典阿拉伯语的培训,并在现代标准阿拉伯语的样本文本上进行了测试。” 我认为这个工具的一个限制是训练集是经典的,而测试集是 MSA。
这篇论文是一个很好的开始,因为它解决了现有工具及其相对成功(和缺点)。我也强烈推荐这篇 2010 年的论文,它看起来像是一份出色的参考书。它也有印刷版或电子版的书。
另外,作为个人说明,我希望看到精通 NLP 的母语人士使用Google ta3reeb(作为Java 开源实用程序提供)来开发更好的工具和库。只是我的一些想法,我对阿拉伯语 NLP 的实际经验非常有限。有许多公司也开发了应用阿拉伯语 NLP 原则的搜索解决方案,尽管他们的大部分工作可能是专有的(例如,我知道Basis Technology已经在这方面进行了相当广泛的合作;我不隶属于 Basis无论如何,我从来没有去过)。
于 2013-05-10T01:35:32.713 回答