我正在为全文搜索制作搜索引擎,但在显示带有描述的结果时出现性能问题。我为当前查询制作了结果,但是当我尝试获取文本并突出显示关键字所在的部分时,表现不佳。我使用 pdf、txt、doc、docs、html 等。所以我的搜索引擎的工作方式如下:
- 我有一个存储文档文本的数据库表
- 我有一个数据库表,我用它的频率索引文本
这种情况是否很好。我必须搜索索引并获取文档,解析文本,获取句子,使用关键字过滤句子。无描述搜索的性能是:
**Крушевското Востание 1903** 0,00518989562988
**Даме Груев** 0,00394678115845
**Даме Груев и Гоце Делчев** 0,0916090011597
**Државен празник Илинден** 0,0072648525238
**Даме** 0,00195503234863
**Александар Македонски** 0,0423209667206
**Бранко Црвенковски и Никола Груевски** 0,0233609676361
**СДСМ и ВМРО-ДПМНЕ** 0,0295231342316
**Македонија** 0,0435738563538
**Никола Груевски и Македонија** 0,0451180934906
搜索关键字是我的母语,文档集合是 3679。使用句子的描述标签,我的结果显示速度要慢 10 到 20 倍。(比如 2-3 秒)。搜索是在 python 中进行的。
有什么建议吗?