machine-learning - 自定义名称检测

Question

这是一个处于非常早期阶段的项目，我正在努力寻找从哪里开始的想法。
任何帮助或指示将不胜感激！

我的问题：
一侧有文本，另一侧有命名 GraphDB 元素的列表（通常名称是首字母缩写词或多词表达式）。我的文字没有注释。
我想检测文本中是否明确使用了名称。诀窍在于它不一定是完美的字符串匹配（例如，首字母缩略词可用于缩短多词表达式，或者可以省略一小部分）。所以一个简单的字符串搜索不会有 100% 的召回率（即使它可以用作启动器）。

如果我只有一个输入并且我希望它与其中一个名称相匹配，我会做一个简单的编辑距离计算，就是这样。让我烦恼的是，我必须对整篇文章都这样做，而且我不知道如何解决/分解问题。
我无法分解 N-gram 中的所有内容，因为我的命名实体可以是一个单词或最多七个单词……或者我可以吗？
我有数千个 Graph 元素，所以我认为 NER 不能在这里应用……或者可以吗？

一个例子可能是：
我的名字列表是 ['Graph Database', 'Manager', 'Employee Number 1']
文本是：

每天早上，经理都会浏览图形数据库以查找更新。每天晚上，员工 1都会更新GraphDB。

我希望在这段文本中将 4 个突出显示的部分映射到列表中的相应项目。

我在机器学习方面有一点背景，但我还没有真正做过 NLP。说清楚，我不关心这些词的含义，我只是想能够检测到它们。

谢谢

machine-learning - 自定义名称检测

0 回答 0

Related

Reference