嗨,下面是我的代码,用于删除停用词并获取包含技术相关术语(如 java、lan、port、socket 等)的文本的命名实体
import nltk
from nltk.corpus import stopwords
import codecs
import os
import base64
def stop_final():
result=[]
text="some technology related text"
text = nltk.word_tokenize(text)
for word in text:
if word not in stopwords.words('english'):
result.append(word)
print nltk.ne_chunk(nltk.pos_tag(result))
stop_final()
从上面的代码中,我得到了 lan、socket 等的 Person 实体,所以我没有得到准确的结果,所以请建议我如何为我的文本获取正确的命名实体
谢谢