我有一个包含超过 200 万个名称、阶段、位置等的数据库/字典。样本数据如下:
“A person who never made a mistake never tried anything new”
“Nelson Mandela”
“United States of America”
“I didn't attend the funeral, but I sent a nice letter saying I approved of it.”
“Joseph Campbell”
“Insanity: doing the same thing over and over again and expecting different results”
“United Kingdom of Great Britain and Northern Ireland”
对于每个条目,都有一个 ID。
现在,当用户向我的网站提交文本时,将对文本进行分析,并以一定的容错性(近似匹配)查找文本中所有出现的名称、阶段和位置。举些例子:
- “精神错乱:一遍又一遍地做同样的事情”阶段将与完整的阶段“精神错乱:一遍又一遍地做同样的事情并期待不同的结果”相匹配</li>
- “精神错乱:一遍又一遍地做同样的事情并期待不同的结果”阶段将与完整的阶段“精神错乱:一遍又一遍地做同样的事情并期待不同的结果”相匹配< /li>
我不知道这是否是命名实体问题,因为我的数据库的阶段长度超过 2 行。我也不想找到确切的相位,我想近似匹配。
我正在寻找开源解决方案。提前致谢