这是否可能:仅使用 NLTK 获得(类似于)斯坦福命名实体识别器功能?
有什么例子吗?
特别是,我对提取文本的 LOCATION 部分感兴趣。例如,从文本
会议将于 11 月至 18 日在 22 West Westin st., South Carolina, 12345 举行
理想情况下,我想得到类似的东西
(S
22/LOCATION
(LOCATION West/LOCATION Westin/LOCATION)
st./LOCATION
,/,
(South/LOCATION Carolina/LOCATION)
,/,
12345/LOCATION
......
或者干脆
22 West Westin st., South Carolina, 12345
相反,我只能得到
(S
The/DT
meeting/NN
will/MD
be/VB
held/VBN
at/IN
22/CD
(LOCATION West/NNP Westin/NNP)
st./NNP
,/,
(GPE South/NNP Carolina/NNP)
,/,
12345/CD
on/IN
Nov.-18/-NONE-)
请注意,如果我在http://nlp.stanford.edu:8080/ner/process中输入我的文本, 我得到的结果远非完美(街道号码和邮政编码仍然缺失),但至少是“st”。是 LOCATION 的一部分,南卡罗来纳州是 LOCATION 而不是一些“GPE / NNP”:?
请问我做错了什么?请问如何修复它以使用 NLTK 从某些文本中提取位置片段?
提前谢谢了!