嗨,我正在尝试根据此处的倒数第二个示例从文本字符串中提取关系:https ://web.archive.org/web/20120907184244/http://nltk.googlecode.com/svn/trunk/doc /howto/relextract.html
从诸如“出版商周刊的迈克尔詹姆斯编辑”之类的字符串中,我想要的结果是有一个输出,例如:
[PER:'Michael James']','[ORG:'Publishers Weekly']的编辑
最好的方法是什么?extract_rels 期望什么格式以及如何格式化我的输入以满足该要求?
尝试自己做,但没有奏效。这是我从书中改编的代码。我没有打印任何结果。我究竟做错了什么?
class doc():
pass
doc.headline = ['this is expected by nltk.sem.extract_rels but not used in this script']
def findrelations(text):
roles = """
(.*(
analyst|
editor|
librarian).*)|
researcher|
spokes(wo)?man|
writer|
,\sof\sthe?\s* # "X, of (the) Y"
"""
ROLES = re.compile(roles, re.VERBOSE)
tokenizedsentences = nltk.sent_tokenize(text)
for sentence in tokenizedsentences:
taggedwords = nltk.pos_tag(nltk.word_tokenize(sentence))
doc.text = nltk.batch_ne_chunk(taggedwords)
print doc.text
for rel in relextract.extract_rels('PER', 'ORG', doc, corpus='ieer', pattern=ROLES):
print relextract.show_raw_rtuple(rel) # doctest: +ELLIPSIS
text ="出版商周刊的迈克尔·詹姆斯编辑"
查找关系(文本)