问题标签 [johnsnowlabs-spark-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5401 浏览

apache-spark - 安装 sparknlp 后,无法导入 sparknlp

以下在 Cloudera CDSW 集群网关上成功运行。

产生这个输出。

但是当我尝试按照John Snow Labs中描述的 pyspark 导入 sparknlp 时...

我明白了:

我需要做什么才能使用 sparknlp?当然,这可以推广到任何 Spark 包。

0 投票
1 回答
779 浏览

pyspark - 无法在 Databricks 上导入 sparknlp

我正在尝试做一个

在 Databricks 平台上,我收到与在安装 sparknlp 后,无法导入 sparknlp 中报告的消息类似的消息

我不知道如何安装 python 包装器......我可以通过 Scala 访问 spark-nlp 库,但我无法让 python 版本正常工作。任何提示将非常感谢!

0 投票
1 回答
402 浏览

apache-spark - 基于 Apache Spark 构建的 John Snow Labs 的 NLP 库是否支持 Java

John Snow Labs 的 NLP 库建立在 Apache Spark 和 Spark ML 库之上。它的所有示例都在scala 和 python中提供。支持java吗?如果是,我在哪里可以找到相关指南?如果没有,有计划支持 java 吗?

0 投票
1 回答
1637 浏览

scala - 如何从磁盘加载 spark-nlp 预训练模型

我从spark-nlpGithub页面下载了一个.zip包含预训练 NerCRFModel 的文件。zip 包含三个文件夹:嵌入、字段和元数据。

如何将其加载到 ScalaNerCrfModel中以便我可以使用它?我是否必须将其放入 HDFS 或启动 Spark Shell 的主机中?我如何引用它?

0 投票
1 回答
1067 浏览

scala - 如何使用 JohnSnowLabs NLP 拼写校正模块 NorvigSweetingModel?

我在这里通过 JohnSnowLabs SpellChecker 。

我在那里找到了Norvig的算法实现,示例部分只有以下两行:

如何在df下面的数据框 ( ) 上应用此预训练模型以更正“”列的拼写names

我试图这样做:

但是上面的代码给了我以下错误:

0 投票
1 回答
561 浏览

apache-spark - 无法在 Zeppelin 中使用 JohnSnowLabs 预训练模型

我想在我的 Zeppelin 笔记本中使用 JohnSnowLabs 预训练的拼写检查模块。正如这里提到的,我已添加com.johnsnowlabs.nlp:spark-nlp_2.11:1.7.3到 Zeppelin 依赖项部分,如下所示:

在此处输入图像描述

但是,当我尝试运行以下简单代码时

它给出如下错误:

如何在 Zeppelin 中添加这个 JohnSnowLabs 拼写检查预训练模型?上面的代码直接在 Spark-shell 上运行时有效。

0 投票
1 回答
286 浏览

tensorflow - 在哪里可以找到预训练 SparkNLP NerDLModel 的类标签列表?

我一直在寻找一段时间,但没有找到预训练的 NerDL(tensorflow) 模型中包含哪些 NER 标签。我认为训练数据可以提供此类信息,但我没有在任何文档中看到它。

可下载模型: https ://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/ner_precise_en_1.7.0_2_1539623388047.zip

任何方向将不胜感激!

更新:

我确实按照这里的建议在 SparkNLP github 中提出了一个问题 :) 我刚收到他们的回复。这是答案:

出于实际目的,预训练的 NER 模型具有

B-组织

组织

B-PER

I-PER

集团

I-LOC

它已从以下位置接受培训: https ://raw.githubusercontent.com/patverga/torch-ner-nlp-from-scratch/master/data/conll2003/eng.train

在此处查看原始问题。

0 投票
1 回答
629 浏览

apache-spark - 无法在数据块上运行 johnsnow OCR 笔记本

所以我正在尝试关注这个笔记本并让它在数据块笔记本上工作:https ://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb ;但是,在安装了所有软件包之后,我仍然卡住了

错误信息是:

org.apache.spark.SparkException:作业因阶段失败而中止:阶段 3.0 中的任务 0 失败 4 次,最近一次失败:阶段 3.0 中丢失任务 0.3(TID 51、10.195.249.145、执行程序 4):java.lang。 NoClassDefFoundError:无法初始化类 net.sourceforge.tess4j.TessAPI

有谁知道为什么?非常感激!

0 投票
1 回答
176 浏览

scala - 当我尝试在 Scala 中运行 John Snow spark-nlp 示例时,我得到“任务不可序列化”

我一直在尝试从这个存储库运行 John Snow Spark-NLP 示例:

https://github.com/JohnSnowLabs/spark-nlp/blob/master/example/src/TrainViveknSentiment.scala

在我的本地机器上。但是org.apache.spark.SparkException: Task not serializable当它到达val sparkPipeline = pipeline.fit(training)堆栈时它会抛出错误它还说Caused by: java.io.NotSerializableException: com.johnsnowlabs.nlp.annotators.param.AnnotatorParam$SerializableFormat$

0 投票
1 回答
3180 浏览

python - Spark Python Pyspark 如何使用字典数组和嵌入式字典来展平列(sparknlp 注释器输出)

我正在尝试从 sparknlp 中提取输出(使用 Pretrained Pipeline 'explain_document_dl')。我花了很多时间寻找方法(UDF、爆炸等),但无法接近可行的解决方案。假设我想在 column 下resultmetadata从 column中提取值entities。在该列中有一个包含多个字典的数组

当我使用df.withColumn("entity_name", explode("entities.result"))时,只提取第一个字典中的值。

“实体”列的内容是字典列表。

尝试提供可重现的示例/重新创建数据框(感谢下面@jonathan 提供的建议):

在这种字典列表的情况下,它可以工作:

但是我被困在如何将其应用于一列,该列包含一些具有多个字典数组的单元格(因此原始单元格有多行)。

我试图将相同的模式应用于entities列,我必须先将列转换为 json。

在此处输入图像描述

它适用于具有 1 个字典数组的null单元格,但适用于具有多个字典数组(第 4 行)的单元格:

所需的输出是

我还尝试将每一行转换为 json,但我忘记了原始行并得到了扁平的儿子:

我尝试应用 UDF 来遍历“实体”中的数组列表:

我发现这篇文章Apache Spark Read JSON With Extra Columns与我的问题非常相似,但是在将列转换entities为 json 之后,我仍然无法通过该帖子中提供的解决方案来解决它。

任何帮助表示赞赏!理想情况下,python 中的解决方案,但 scala 中的示例也很有帮助!