2

所以我正在尝试关注这个笔记本并让它在数据块笔记本上工作:https ://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb ;但是,在安装了所有软件包之后,我仍然卡住了

{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
    println("---------------")
    println(chunk)}
}

错误信息是:

org.apache.spark.SparkException:作业因阶段失败而中止:阶段 3.0 中的任务 0 失败 4 次,最近一次失败:阶段 3.0 中丢失任务 0.3(TID 51、10.195.249.145、执行程序 4):java.lang。 NoClassDefFoundError:无法初始化类 net.sourceforge.tess4j.TessAPI

有谁知道为什么?非常感激!

4

1 回答 1

2

如文档所述,要使用 Spark NLP OCR,您需要安装 Tesseract 4.x+。在集群中,您必须在所有节点上都有这个。但是,如果您只是处理 PDF 而不是扫描图像,您可能可以跳过 Tesseract 4.x+ 安装:

import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()

val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")

更新:Spark OCR 有一个新文档,Databricks 有特殊说明:

https://nlp.johnsnowlabs.com/docs/en/ocr

于 2019-05-05T21:31:29.223 回答