1

我正在为印地文 WSD 使用以下数据集,

एक बार वीरगढ़ राज्य की महारानी का महारानी को हार बहुत प्रिय था । उन्होंने हार ढूंढने की बहुत कोशिश कह केनीबहुतकोनेदीदीदीदीजिसतितितितिको,यह संयोग था कि हार एक संन्यासी को मिला था । उसकेमनकेकेतिकोईषणषणषणनहींथनहींनहींषणभीभीउसनेयहखकिकिकिकि उसनेअगलेसुनीसुनी,पसुनीसुनीदेनेदेने वह अपनी साधना में लीन रहा । तीन दिन बीत गए । चौथेदिनसंन्यासी हार लेकर राजा कोकितीनतीनदिनोंदिनोंउसकेसससससससउसनेउसनेउसनेउसनेउसनेोधितोधितोधितोधितोधित''' संन्यासी ने जवाब दिया 'सुनी थी, पयदिआआतोकहतेकिएकहोकहोक इस पर राजा ने पूछा, 'तो आज चौथे दिन क्यों लाए? इस पर संन्यासी ने कहा, 'मुझे मौत का भय नहीं है ा पमैंकीकीकोकोकोपहूंहूंहूं हार जैसी तुच्छ चीज से मुझे कोई लगाव नहीं ।' यह उत्तर सुनकर राजा लज्जित हो गया । महारानी को भी अपनी गलती का अहसास हुआ । उसने हार बेचकर वह राशि गरीबों में बंटवा दी ।

न्यूयॉर्क । हीपहनीपहनीपहनीनककडडकीमत अपनीतकीयेअकेलीडॉलडॉलससपहनेहुईहुईहैहैउसकेउसकेगलेगलेमेंमेंमेंएकएकएकएकएकेटचौको येमेंतबसेतबसेआजआज सबसेबडीडडडकोकोकोकोकेकेकेकेकेएकगहनोंकेके

我的问题是如何使用“本地上下文和搭配上下文”从这个示例数据集中提取特征..​​....这里模棱两可的词是हार(项链)......如何从左边得到两个词,从右边得到两个词。 ..在印地语 wordnet 中,हार 这个词有 2 种含义……我正在使用 Anaconda python --jupyter 环境。

我的代码在这里

#****************Word Sense Disambiguation in Hindi Language**********************
#*****************Tokenization and Stop Word removal******************************
import nltk
filename = "C:/Users/Lubna Khan/My-WSD/हार/ContextSenses002.txt"
file = open(filename, "r+", encoding="utf-16")
DisplayTextF = file.read()
#print(DisplayTextF)
tokens = nltk.word_tokenize(DisplayTextF)
#print(tokens)
token = [w for w in tokens]
#reading stop-word file which is in hindi text (Devnaagri script)
filename = "C:/Users/Lubna Khan/My-WSD/HindiStopWords.txt"
file = open(filename, "r+", encoding="utf-16") 
sw = file.read()
sw_token = nltk.word_tokenize(sw)
stop_words = [w for w in sw_token]
filtered_sentence = []
for w in token :
    if w not in stop_words :
        filtered_sentence.append(w)
print(filtered_sentence)
#*************Feature Extraction***************

请帮助我..提前谢谢

Python中的印地语WSD代码

Hindi_Stop_word_Removal+标记化

4

0 回答 0