apache-spark - 无法在数据块上运行 johnsnow OCR 笔记本

Question

所以我正在尝试关注这个笔记本并让它在数据块笔记本上工作：https ://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb ；但是，在安装了所有软件包之后，我仍然卡住了

{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
    println("---------------")
    println(chunk)}
}

错误信息是：

org.apache.spark.SparkException：作业因阶段失败而中止：阶段 3.0 中的任务 0 失败 4 次，最近一次失败：阶段 3.0 中丢失任务 0.3（TID 51、10.195.249.145、执行程序 4）：java.lang。 NoClassDefFoundError：无法初始化类 net.sourceforge.tess4j.TessAPI

有谁知道为什么？非常感激！

score 2 · Accepted Answer

如文档所述，要使用 Spark NLP OCR，您需要安装 Tesseract 4.x+。在集群中，您必须在所有节点上都有这个。但是，如果您只是处理 PDF 而不是扫描图像，您可能可以跳过 Tesseract 4.x+ 安装：

import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()

val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")

更新：Spark OCR 有一个新文档，Databricks 有特殊说明：

https://nlp.johnsnowlabs.com/docs/en/ocr

apache-spark - 无法在数据块上运行 johnsnow OCR 笔记本

1 回答 1

Related

Reference