1

我有两个数据库ab其中包含科学论文的标题。我想将这些数据库合并到一个数据库c中。

  • 可能a包含不在其中的标题,b反之亦然。
  • 一个标题可能同时在数据库ab.
  • 字母和标点的大小写可能不匹配:
    • “这是一个标题。” VS。“这是一个标题”
    • “这是——又是一个——头衔。” VS。“这又是一个标题”
    • “基于 bla 的 k-mean 算法。” VS“基于 bla 的 k 均值算法”

首先,我想在 MySQL 中使用 levenstein 距离函数来匹配两个数据库中的相同标题,但是查看数百万行我不知道这是否会表现得足够好。然后我想到了一个全文搜索来匹配标题,但据我所知全文搜索不匹配常用词,因此匹配在实际上不同的相似标题上表现不佳。

因此,我在匹配过程中不需要 100%。但我希望利率尽可能高。有什么建议吗?

4

1 回答 1

1

想到的一个想法是创建一个包含没有任何标点符号且小写的文本的搜索列,然后进行比较。

如果您正在使用与 mySQL 相关的其他语言或平台,那么在那里进行规范化可能是最容易的——我想不出一个原生的 mySQL 函数来去除标点符号等。这当然是可能的,但可能只使用一组极其复杂的REPLACE()调用。

于 2011-08-06T18:16:02.433 回答