c# - C# LiteDB - 索引和搜索文本块

问问题 2019-02-12T14:54:21.783

454 次

用例：OCR PDF、索引文本并使文本可搜索

假设我有这样的课程：

public class Scan
{
    public int Id { get; set; }
    public string Name { get; set; }
    public int PageNumber { get; set; }
    public string[] Names { get; set; }
    public string[] OCRText { get; set; }
}

当我扫描 PDF 时，我想将文档存储在单个页面结果中，因此 Scanned.PDF 存储在名称中：

ID: 1, Name: 'Scanned.PDF, PageNumber: 1, ...'
ID: 2, Name: 'Scanned.PDF, PageNumber: 2, ...'
ID: 3, etc.

然后，我将附加元数据（IE：名称）和生成的 OCR 文本

我的问题：

使 OCRText“可搜索”ala Google/ElasticSearch 的最佳方法是什么。

我希望能够搜索“John”并找到所有名称为 John 的页面（即：Johnny）

恐怕 OCRText 块上的索引可能很笨拙。

c# - C# LiteDB - 索引和搜索文本块

0 回答 0

Related

Reference