这更像是 Firebase/MLKit 团队的一个问题。
当为 iOS 和 Android 版本的 MLKit Text Recognition On-Device API 使用相同的图像作为输入时,我确实在每个解决方案提供的边界框信息(x、y、宽度、高度)上得到了不同的结果。
请参阅下面我用于测试的原始输入图像和另一个显示结果文本块的边界框的图像,这些边界框是根据两个文本识别设备上 API 提供的信息绘制的(蓝色是 iOS 结果红色的是Android):
有谁知道是什么可能导致 iOS 和 Android 版本的 API 的结果之间存在这种差异?我怀疑他们使用不同的机器学习模型来识别/提取边界框。如果是这样,是否有可能在不久的将来让这两种解决方案运行相同的模型,因为它们仍处于 beta 版本?
欢迎任何想法!