1

用例:OCR PDF、索引文本并使文本可搜索

假设我有这样的课程:

public class Scan
{
    public int Id { get; set; }
    public string Name { get; set; }
    public int PageNumber { get; set; }
    public string[] Names { get; set; }
    public string[] OCRText { get; set; }
}

当我扫描 PDF 时,我想将文档存储在单个页面结果中,因此 Scanned.PDF 存储在名称中:

ID: 1, Name: 'Scanned.PDF, PageNumber: 1, ...'
ID: 2, Name: 'Scanned.PDF, PageNumber: 2, ...'
ID: 3, etc.

然后,我将附加元数据(IE:名称)和生成的 OCR 文本

我的问题:

使 OCRText“可搜索”ala Google/ElasticSearch 的最佳方法是什么。

我希望能够搜索“John”并找到所有名称为 John 的页面(即:Johnny)

恐怕 OCRText 块上的索引可能很笨拙。

4

0 回答 0