0

我用 sqlite 建立了一个完整的 ext 搜索索引,当我扫描包含几种语言的文档时,我不明白内部发生了什么。

例如,我用俄语描述了一个我正在学习的编程主题,并在描述代码块中添加了显然是英语的编程语言语法语句和注释。

让我们考虑一下示例document.txt

Вывод хранимых данных производится следующей командой

import storage
def main()  # Comments just to represent an example
    print(storage.data)

如您所见, document.txt包含两种语言。

我使用雪球标记器(它重用标准sowball 库)来索引明确指定的已完成文档CREATE TABLE documents USING FTS5(text, tokenize='snowball russian');,并且它可以毫无问题地处理它。所以这里有一点为什么?文档包含英文单词,后来索引包含英文词干俄文词干,我可以搜索командаcommenting成功。事情是这样运作的吗?

4

0 回答 0