mysql 数据库中的表中有两列。第一列包含指纹,而第二列包含具有该指纹的文档列表。它很像搜索引擎构建的倒排索引。表内记录的一个实例如下所示;
34 "doc1, doc2, doc45"
指纹的数量非常大(可达数万亿)。数据库中基本上有以下操作:插入/更新记录和根据指纹匹配检索记录。表定义python片段是:
self.cursor.execute("CREATE TABLE IF NOT EXISTS `fingerprint` (fp BIGINT, documents TEXT)")
插入/更新操作的片段是:
if self.cursor.execute("UPDATE `fingerprint` SET documents=CONCAT(documents,%s) WHERE fp=%s",(","+newDocId, thisFP))== 0L:
self.cursor.execute("INSERT INTO `fingerprint` VALUES (%s, %s)", (thisFP,newDocId))
到目前为止,我观察到的唯一瓶颈是 mysql 中的查询时间。我的整个应用程序是基于网络的。所以时间是一个关键因素。我也想过使用 cassandra,但对它的了解较少。请建议我一个更好的方法来解决这个问题。