0

我正在寻找构建一个应用程序来针对文档执行各种基于文本的认知服务功能。

但是,我似乎在首先从文档中获取文本的第一个障碍上失败了。

我知道 OCR 和表单识别器都对此执行变体(分别为“文本识别”和“文本提取”) - 但对于标准文档(例如 Word / Excel / PDF),这感觉就像是大量的矫枉过正。

认知搜索包括“文档破解”过程——但我需要实时处理文档,所以不想处理 Azure 中的索引。

Azure 中是否有更简单的“获取文本”功能(无论是在认知服务中还是在其他方面)我可以使用它?

我真的不想做的是,必须为每种不同的文件类型(例如 PDF / DOCX / TXT / PNG / MSG)编写我自己的函数,并确定我需要为每个文件使用哪个 API。

先感谢您!

4

1 回答 1

1

AFAIK,除了从认知技能(Azure 认知搜索)中提取文档外,没有现成的工具:

https://docs.microsoft.com/en-us/azure/search/cognitive-search-skill-document-extraction

您还可以构建自己的管道以使用 Tika.NET 提取文本:

https://github.com/KevM/tikaondotnet

于 2021-10-19T16:10:28.260 回答