我用 sqlite 建立了一个完整的 ext 搜索索引,当我扫描包含几种语言的文档时,我不明白内部发生了什么。
例如,我用俄语描述了一个我正在学习的编程主题,并在描述代码块中添加了显然是英语的编程语言语法语句和注释。
让我们考虑一下示例document.txt
Вывод хранимых данных производится следующей командой
import storage
def main() # Comments just to represent an example
print(storage.data)
如您所见, document.txt包含两种语言。
我使用雪球标记器(它重用标准sowball 库)来索引明确指定的已完成文档CREATE TABLE documents USING FTS5(text, tokenize='snowball russian');
,并且它可以毫无问题地处理它。所以这里有一点为什么?文档包含英文单词,后来索引包含英文词干和俄文词干,我可以搜索команда
或commenting
成功。事情是这样运作的吗?