2

我正在编写一个应用程序,您可以使用该应用程序为文本拍照,然后扫描文本并将其传输到变量。我已经用插件 firebase_ml_vision 做到了,一切正常。

我遇到的问题是我想自己决定从照片中扫描哪些文本。例如,这可以以这样一种方式工作,即自动为每个单词和数字提供一个框架,然后用户点击传输到变量的单词。这也适用于谷歌翻译器(见截图),但不幸的是我还没有找到任何方法......你知道它是如何工作的吗?

在此处输入图像描述

4

1 回答 1

1

firebase-mlkit 的文本识别 API会frame为 、 和 中的cornerPoints每一个返回一个和:VisionTextBlockVisionTextLineVisionTextElement

https://firebase.google.com/docs/reference/swift/firebasemlvision/api/reference/Classes/VisionTextBlock

它们应该可以帮助您选择单词、行或文本块。

于 2020-10-09T18:02:18.837 回答