我有两个数据库a
,b
其中包含科学论文的标题。我想将这些数据库合并到一个数据库c
中。
- 可能
a
包含不在其中的标题,b
反之亦然。 - 一个标题可能同时在数据库
a
和b
. - 字母和标点的大小写可能不匹配:
- “这是一个标题。” VS。“这是一个标题”
- “这是——又是一个——头衔。” VS。“这又是一个标题”
- “基于 bla 的 k-mean 算法。” VS“基于 bla 的 k 均值算法”
首先,我想在 MySQL 中使用 levenstein 距离函数来匹配两个数据库中的相同标题,但是查看数百万行我不知道这是否会表现得足够好。然后我想到了一个全文搜索来匹配标题,但据我所知全文搜索不匹配常用词,因此匹配在实际上不同的相似标题上表现不佳。
因此,我在匹配过程中不需要 100%。但我希望利率尽可能高。有什么建议吗?