我是 Devnagaric NLP 的新手,是否有任何团体或资源可以帮助我开始使用 Devnagaric 语言(主要是尼泊尔语或类似印地语)的 NLP。我希望能够为梵文开发字体并做一些字体处理应用程序。如果有人(在该领域工作)可以给我一些建议,那将是非常可观的。提前致谢
2 回答
我是 Devnagaric NLP 的新手,是否有任何团体或资源可以帮助我开始使用 Devnagaric 语言(主要是尼泊尔语或类似印地语)的 NLP
您可以使用 fasttext [ https://fasttext.cc/docs/en/pretrained-vectors.html#content]给出的嵌入,并使用一些深度学习 RNN 模型(如 LSTM)进行文本分类、情感分析。
您可以在这里找到一些用于命名实体识别的数据集 [ http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5]
对于处理印度语言,您可以参考这里 [ https://github.com/anoopkunchukuttan/indic_nlp_library]
Nltk 支持印度语言,对于 pos 标记和 nlp 相关任务,您可以参考这里 [ http://www.nltk.org/_modules/nltk/corpus/reader/indian.html]
是否有任何团体或资源可以帮助我开始使用 Devnagaric 语言的 NLP?
Madan Puraskar Pustakalaya 下的Bhasa Sanchar 项目开发了尼泊尔语语料库。您可以通过上面链接中提供的联系人请求尼泊尔语语料库用于非商业目的。
Python 的 NLTK 有印地语语料库。您可以使用导入它
from nltk.corpus import indian
为了深入了解基于 Devnagari 的 NLP,我建议您阅读研究论文。尼泊尔语是一种资源不足的语言;还有很多工作要做,而且可能很难获得相同的内容。
您可能应该研究语言检测、文本分类、情感分析等(最好基于语料库中的 POS 标记库)以掌握基础知识。
对于问题的第二部分
我很确定字体开发不属于自然语言处理的范畴。你的意思是别的吗?