这是一个处于非常早期阶段的项目,我正在努力寻找从哪里开始的想法。
任何帮助或指示将不胜感激!
我的问题:
一侧有文本,另一侧有命名 GraphDB 元素的列表(通常名称是首字母缩写词或多词表达式)。我的文字没有注释。
我想检测文本中是否明确使用了名称。诀窍在于它不一定是完美的字符串匹配(例如,首字母缩略词可用于缩短多词表达式,或者可以省略一小部分)。所以一个简单的字符串搜索不会有 100% 的召回率(即使它可以用作启动器)。
如果我只有一个输入并且我希望它与其中一个名称相匹配,我会做一个简单的编辑距离计算,就是这样。让我烦恼的是,我必须对整篇文章都这样做,而且我不知道如何解决/分解问题。
我无法分解 N-gram 中的所有内容,因为我的命名实体可以是一个单词或最多七个单词……或者我可以吗?
我有数千个 Graph 元素,所以我认为 NER 不能在这里应用……或者可以吗?
一个例子可能是:
我的名字列表是 ['Graph Database', 'Manager', 'Employee Number 1']
文本是:
每天早上,经理都会浏览图形数据库以查找更新。每天晚上,员工 1都会更新GraphDB。
我希望在这段文本中将 4 个突出显示的部分映射到列表中的相应项目。
我在机器学习方面有一点背景,但我还没有真正做过 NLP。说清楚,我不关心这些词的含义,我只是想能够检测到它们。
谢谢