“johnsnowlabs-spark-nlp”的相关标签问题

0 投票

3 回答

5401 浏览

apache-spark - 安装 sparknlp 后，无法导入 sparknlp

以下在 Cloudera CDSW 集群网关上成功运行。

产生这个输出。

但是当我尝试按照John Snow Labs中描述的 pyspark 导入 sparknlp 时...

我明白了：

我需要做什么才能使用 sparknlp？当然，这可以推广到任何 Spark 包。

2017-12-07T22:52:38.330

0 投票

1 回答

779 浏览

pyspark - 无法在 Databricks 上导入 sparknlp

我正在尝试做一个

在 Databricks 平台上，我收到与在安装 sparknlp 后，无法导入 sparknlp 中报告的消息类似的消息

我不知道如何安装 python 包装器......我可以通过 Scala 访问 spark-nlp 库，但我无法让 python 版本正常工作。任何提示将非常感谢！

pyspark databricks johnsnowlabs-spark-nlp

2018-03-16T04:32:48.700

0 投票

1 回答

402 浏览

apache-spark - 基于 Apache Spark 构建的 John Snow Labs 的 NLP 库是否支持 Java

John Snow Labs 的 NLP 库建立在 Apache Spark 和 Spark ML 库之上。它的所有示例都在scala 和 python中提供。支持java吗？如果是，我在哪里可以找到相关指南？如果没有，有计划支持 java 吗？

apache-spark nlp apache-spark-mllib johnsnowlabs-spark-nlp

2018-03-23T14:16:49.160

0 投票

1 回答

1637 浏览

scala - 如何从磁盘加载 spark-nlp 预训练模型

我从spark-nlpGithub页面下载了一个.zip包含预训练 NerCRFModel 的文件。zip 包含三个文件夹：嵌入、字段和元数据。

如何将其加载到 ScalaNerCrfModel中以便我可以使用它？我是否必须将其放入 HDFS 或启动 Spark Shell 的主机中？我如何引用它？

scala apache-spark nlp apache-spark-mllib johnsnowlabs-spark-nlp

2018-08-29T14:56:00.700

0 投票

1 回答

1067 浏览

scala - 如何使用 JohnSnowLabs NLP 拼写校正模块 NorvigSweetingModel？

我在这里通过 JohnSnowLabs SpellChecker 。

我在那里找到了Norvig的算法实现，示例部分只有以下两行：

如何在df下面的数据框 ( ) 上应用此预训练模型以更正“”列的拼写names？

我试图这样做：

但是上面的代码给了我以下错误：

scala apache-spark nlp apache-spark-ml johnsnowlabs-spark-nlp

2018-11-21T18:15:40.017

0 投票

1 回答

561 浏览

apache-spark - 无法在 Zeppelin 中使用 JohnSnowLabs 预训练模型

我想在我的 Zeppelin 笔记本中使用 JohnSnowLabs 预训练的拼写检查模块。正如这里提到的，我已添加com.johnsnowlabs.nlp:spark-nlp_2.11:1.7.3到 Zeppelin 依赖项部分，如下所示：

但是，当我尝试运行以下简单代码时

它给出如下错误：

如何在 Zeppelin 中添加这个 JohnSnowLabs 拼写检查预训练模型？上面的代码直接在 Spark-shell 上运行时有效。

apache-spark apache-zeppelin johnsnowlabs-spark-nlp

2018-11-22T10:49:38.207

0 投票

1 回答

286 浏览

tensorflow - 在哪里可以找到预训练 SparkNLP NerDLModel 的类标签列表？

我一直在寻找一段时间，但没有找到预训练的 NerDL(tensorflow) 模型中包含哪些 NER 标签。我认为训练数据可以提供此类信息，但我没有在任何文档中看到它。

可下载模型： https ://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/ner_precise_en_1.7.0_2_1539623388047.zip

任何方向将不胜感激！

更新：

我确实按照这里的建议在 SparkNLP github 中提出了一个问题 :) 我刚收到他们的回复。这是答案：

出于实际目的，预训练的 NER 模型具有

B-组织

组织

B-PER

I-PER

集团

I-LOC

它已从以下位置接受培训： https ://raw.githubusercontent.com/patverga/torch-ner-nlp-from-scratch/master/data/conll2003/eng.train

在此处查看原始问题。

tensorflow johnsnowlabs-spark-nlp

2018-11-26T19:13:05.877

0 投票

1 回答

629 浏览

apache-spark - 无法在数据块上运行 johnsnow OCR 笔记本

所以我正在尝试关注这个笔记本并让它在数据块笔记本上工作：https ://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb ；但是，在安装了所有软件包之后，我仍然卡住了

错误信息是：

org.apache.spark.SparkException：作业因阶段失败而中止：阶段 3.0 中的任务 0 失败 4 次，最近一次失败：阶段 3.0 中丢失任务 0.3（TID 51、10.195.249.145、执行程序 4）：java.lang。 NoClassDefFoundError：无法初始化类 net.sourceforge.tess4j.TessAPI

有谁知道为什么？非常感激！

apache-spark databricks johnsnowlabs-spark-nlp

2018-12-20T04:41:52.790

0 投票

1 回答

176 浏览

scala - 当我尝试在 Scala 中运行 John Snow spark-nlp 示例时，我得到“任务不可序列化”

我一直在尝试从这个存储库运行 John Snow Spark-NLP 示例：

https://github.com/JohnSnowLabs/spark-nlp/blob/master/example/src/TrainViveknSentiment.scala

在我的本地机器上。但是org.apache.spark.SparkException: Task not serializable当它到达val sparkPipeline = pipeline.fit(training)堆栈时它会抛出错误它还说Caused by: java.io.NotSerializableException: com.johnsnowlabs.nlp.annotators.param.AnnotatorParam$SerializableFormat$

scala apache-spark sentiment-analysis johnsnowlabs-spark-nlp

2019-01-24T16:53:34.277

0 投票

1 回答

3180 浏览

python - Spark Python Pyspark 如何使用字典数组和嵌入式字典来展平列（sparknlp 注释器输出）

我正在尝试从 sparknlp 中提取输出（使用 Pretrained Pipeline 'explain_document_dl'）。我花了很多时间寻找方法（UDF、爆炸等），但无法接近可行的解决方案。假设我想在 column 下result和metadata从 column中提取值entities。在该列中有一个包含多个字典的数组

当我使用df.withColumn("entity_name", explode("entities.result"))时，只提取第一个字典中的值。

“实体”列的内容是字典列表。

尝试提供可重现的示例/重新创建数据框（感谢下面@jonathan 提供的建议）：

在这种字典列表的情况下，它可以工作：

但是我被困在如何将其应用于一列，该列包含一些具有多个字典数组的单元格（因此原始单元格有多行）。

我试图将相同的模式应用于entities列，我必须先将列转换为 json。

它适用于具有 1 个字典数组的null单元格，但适用于具有多个字典数组（第 4 行）的单元格：

所需的输出是

我还尝试将每一行转换为 json，但我忘记了原始行并得到了扁平的儿子：

我尝试应用 UDF 来遍历“实体”中的数组列表：

我发现这篇文章Apache Spark Read JSON With Extra Columns与我的问题非常相似，但是在将列转换entities为 json 之后，我仍然无法通过该帖子中提供的解决方案来解决它。

任何帮助表示赞赏！理想情况下，python 中的解决方案，但 scala 中的示例也很有帮助！

python scala apache-spark pyspark johnsnowlabs-spark-nlp

2019-06-24T16:41:59.150

问题标签 [johnsnowlabs-spark-nlp]

Reference