我目前正在进行一个学习项目,以从他们的简历/简历中提取个人姓名。
目前我正在与 Stanford-NER 和 OpenNLP 合作,它们都在开箱即用方面取得了一定程度的成功,倾向于在“非西方”类型名称上挣扎(无意冒犯任何人)。
我的问题是 - 鉴于简历/简历中个人姓名普遍缺乏句子结构或上下文,我是否可能通过创建类似于 CV 语料库的内容来显着改善姓名识别?
我最初的想法是,我可能会通过拆分句子、删除明显的文本并应用一些逻辑来对个人的名字做出最好的猜测来获得更大的成功。
如果名称出现在结构化句子中,我可以看到培训将如何工作,但是作为没有上下文的独立实体(例如 Akbar Agho),我怀疑无论培训如何,它都会遇到困难。
是否存在某种程度的 AI,如果给定足够的数据将开始制定查找名称的模式,或者我是否应该只应用基于逻辑的字符串提取级别?
我很欣赏人们的想法、意见和建议。
旁注:我一直在使用 PHP 和 Appache Tika 从 Doc/Pdf 中进行初始文本提取,并且正在通过 PHP/命令行尝试斯坦福和 OpenNLP。
克里斯