我开发了具有 OCR 扫描功能的 iphone 应用程序。使用 Tesseract api,从拍摄的图像中获取文本。但是现在我需要将每个文本与姓名、地址、电子邮件、电话号码等分开。因为名片结构/格式并不具体,所以很难假设。
然而很少有事情假设 1)“@”包含字符串,主要是电子邮件 ID。2)所有带大括号或+号的数字主要是电话号码..但仍然有很多很多的可能性。
您将需要NSLInguisticTagger类的帮助。这是您最好的选择,否则您将不得不为每个部分创建类似的逻辑,如上所述。
您可以检查我们在这个 Javascript BCR 库中使用的逻辑,也是基于 tesseract(js 中的移植)。