我有这样的文字:
抢购一些首批确认的论坛发言人: John Sequiera 毕业于阿根廷布宜诺斯艾利斯大学的 Facultad de Ciencias Exactas y Naturales 生物学。2004 年在布宜诺斯艾利斯大学获得生物学(分子神经科学)博士学位,师从 Marcelo Rubinstein 教授。2005 年至 2008 年间,在 Jean-Pierre Changeux 教授的指导下,在巴斯德研究所(巴黎)进行博士后培训,研究烟碱受体在执行行为中的作用。出于对研究人类神经系统疾病的浓厚兴趣,她于 2009 年加入伦敦国王学院的精神病学研究所,在那里她在神经退行性疾病领域进行了具有转化视角的基础研究。自 2016 年以来,一直担任布宜诺斯艾利斯大学科学与自然科学学院的首席讲师/兼职教授。 汤姆冈萨雷斯苏塞克斯大学生命科学学院苏塞克斯神经科学系神经科学教授。Baden 教授使用构成脊椎动物视网膜的精美电路集合作为模型,研究神经元和网络如何计算。
我想要输出:
[{"person" : "John Sequiera" , "content": "Graduated in Biology at Facultad...."},{"person" : "Tom Gonzalez" , "content": "is a professor of Neuroscience at the Sussex..."}]
所以我们想获得 NER : PER for person 并且在 content 中我们在检测到 person 之后放置所有内容,直到我们在文本中找到一个新人......
有可能的 ?
我尝试使用 spacy 来提取 NER,但我发现获取内容有困难:
import spacy
nlp = spacy.load("en_core_web_lg")
doc = nlp(text)
for ent in doc.ents:
print(ent.text,ent.label_)