我即将开始使用 tesseract,确切地说是 tess4j,并且我正在浏览 api 文档。我还没有遇到任何从网页阅读的方式。
基本上,该程序会打开一个只是图像的网页。我希望 tess4j 从页面中读取图像并将其转换为单词。如果 tess4j 无法做到这一点,是否还有其他有帮助的 java ocrs,最好不下载图像?
感谢帮助。
尝试这个:
String imageURL = "<Remote URL of image>";
String result = "";
URL url = new URL(imageURL);
BufferedImage img = ImageIO.read(url);
Tesseract instance = new Tesseract();
instance.setDatapath("<your tessdata path>");
result = instance.doOCR(img);
阅读和下载是同义词。如果您正在考虑从网页中读取图像而不在网页中打开它,我建议您查看“curl”命令,它在 Java 中是等效的。使用上述命令获取图像后,可以使用 Tesseract 对其进行解析。