2

我正在创建一个 Web 应用程序来搜索具有教育、经验等属性的人。我不能对所有字段使用全文搜索,因为有些必须是模糊匹配。(例如:如果我们搜索 biotech,它应该选择 bio tech、biotech 和 bio-tech)。我的数据库在配置文件模型中有大约 200 个条目,这些条目将出现在搜索结果中。

教育和经验等其他模型通过外键连接到个人资料

因此,我决定选择在什么领域使用什么方法。对于学位名称等较短的字段(在教育模型中),我想使用三元相似度。对于教育描述等领域,我使用全文搜索。

但是,由于我必须在多个字段中执行此操作,因此我使用了简单的查找而不是使用搜索向量。

Profile.objects.filter(
    Q(first_name__trigram_similar=search_term) |
    Q(last_name__trigram_similar=search_term) |
    Q(vision_expertise__search=search_term) |
    Q(educations__degree__trigram_similar=search_term) |
    Q(educations__field_of_study__trigram_similar=search_term) |
    Q(educations__school__trigram_similar=search_term) |
    Q(educations__description__search=search_term) |
    Q(experiences__title__trigram_similar=search_term) |
    Q(experiences__company__trigram_similar=search_term) |
    Q(experiences__description__search=search_term) |
    Q(publications__title__trigram_similar=search_term) |
    Q(publications__description__search=search_term) |
    Q(certification__certification_name__trigram_similar=search_term) |
    Q(certification__certification_authority__trigram_similar=search_term) |
    Q(bio_description__search=search_term) |
)

我每次搜索都会得到预期的结果。但是,获得它所需的时间非常缓慢。我不知道如何使它更快。

4

2 回答 2

2

如果没有类代码,很难找到优化查询的更好方法。

您可以添加GinGist索引以加快三元相似度。

您可以使用SearchVector构建注释,如下所示:

from django.contrib.postgres.aggregates import StringAgg
from django.contrib.postgres.search import SearchQuery, SearchVector

search_vectors = (
    SearchVector('vision_expertise') +
    SearchVector('bio_description') +
    SearchVector(StringAgg('experiences__description', delimiter=' ')) +
    SearchVector(StringAgg('educations__description', delimiter=' ')) +
    SearchVector(StringAgg('publications__description', delimiter=' '))
)

Profile.objects.annotate(
    search=search_vectors
).filter(
    Q(search=SearchQuery(search_term)) |
    Q(first_name__trigram_similar=search_term) |
    Q(last_name__trigram_similar=search_term) |
    Q(educations__degree__trigram_similar=search_term) |
    Q(educations__field_of_study__trigram_similar=search_term) |
    Q(educations__school__trigram_similar=search_term) |
    Q(experiences__title__trigram_similar=search_term) |
    Q(experiences__company__trigram_similar=search_term) |
    Q(publications__title__trigram_similar=search_term) |
    Q(certification__certification_name__trigram_similar=search_term) |
    Q(certification__certification_authority__trigram_similar=search_term)
)

您可以使用SearchVectorField 加速全文搜索

要了解全文搜索和三元组,您可以阅读我写的关于该主题的文章:

“使用 PostgreSQL 在 Django 中进行全文搜索”

于 2019-06-11T15:40:08.110 回答
0

在 postgres 中添加 Trigram 索引以提高性能,即用于 users.first_name 和 users.last_name 索引:

CREATE INDEX index_users_full_name
             ON users using gin ((first_name || ' ' || last_name) gin_trgm_ops);
于 2021-12-19T11:15:45.610 回答