问题标签 [johnsnowlabs-spark-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 安装 sparknlp 后,无法导入 sparknlp
以下在 Cloudera CDSW 集群网关上成功运行。
产生这个输出。
但是当我尝试按照John Snow Labs中描述的 pyspark 导入 sparknlp 时...
我明白了:
我需要做什么才能使用 sparknlp?当然,这可以推广到任何 Spark 包。
pyspark - 无法在 Databricks 上导入 sparknlp
我正在尝试做一个
在 Databricks 平台上,我收到与在安装 sparknlp 后,无法导入 sparknlp 中报告的消息类似的消息
我不知道如何安装 python 包装器......我可以通过 Scala 访问 spark-nlp 库,但我无法让 python 版本正常工作。任何提示将非常感谢!
apache-spark - 基于 Apache Spark 构建的 John Snow Labs 的 NLP 库是否支持 Java
John Snow Labs 的 NLP 库建立在 Apache Spark 和 Spark ML 库之上。它的所有示例都在scala 和 python中提供。支持java吗?如果是,我在哪里可以找到相关指南?如果没有,有计划支持 java 吗?
scala - 如何从磁盘加载 spark-nlp 预训练模型
我从spark-nlp
Github页面下载了一个.zip
包含预训练 NerCRFModel 的文件。zip 包含三个文件夹:嵌入、字段和元数据。
如何将其加载到 ScalaNerCrfModel
中以便我可以使用它?我是否必须将其放入 HDFS 或启动 Spark Shell 的主机中?我如何引用它?
scala - 如何使用 JohnSnowLabs NLP 拼写校正模块 NorvigSweetingModel?
我在这里通过 JohnSnowLabs SpellChecker 。
我在那里找到了Norvig
的算法实现,示例部分只有以下两行:
如何在df
下面的数据框 ( ) 上应用此预训练模型以更正“”列的拼写names
?
我试图这样做:
但是上面的代码给了我以下错误:
apache-spark - 无法在 Zeppelin 中使用 JohnSnowLabs 预训练模型
我想在我的 Zeppelin 笔记本中使用 JohnSnowLabs 预训练的拼写检查模块。正如这里提到的,我已添加com.johnsnowlabs.nlp:spark-nlp_2.11:1.7.3
到 Zeppelin 依赖项部分,如下所示:
但是,当我尝试运行以下简单代码时
它给出如下错误:
如何在 Zeppelin 中添加这个 JohnSnowLabs 拼写检查预训练模型?上面的代码直接在 Spark-shell 上运行时有效。
tensorflow - 在哪里可以找到预训练 SparkNLP NerDLModel 的类标签列表?
我一直在寻找一段时间,但没有找到预训练的 NerDL(tensorflow) 模型中包含哪些 NER 标签。我认为训练数据可以提供此类信息,但我没有在任何文档中看到它。
任何方向将不胜感激!
更新:
我确实按照这里的建议在 SparkNLP github 中提出了一个问题 :) 我刚收到他们的回复。这是答案:
出于实际目的,预训练的 NER 模型具有
B-组织
组织
B-PER
I-PER
集团
I-LOC
它已从以下位置接受培训: https ://raw.githubusercontent.com/patverga/torch-ner-nlp-from-scratch/master/data/conll2003/eng.train
在此处查看原始问题。
apache-spark - 无法在数据块上运行 johnsnow OCR 笔记本
所以我正在尝试关注这个笔记本并让它在数据块笔记本上工作:https ://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/ocr-spell/OcrSpellChecking.ipynb ;但是,在安装了所有软件包之后,我仍然卡住了
错误信息是:
org.apache.spark.SparkException:作业因阶段失败而中止:阶段 3.0 中的任务 0 失败 4 次,最近一次失败:阶段 3.0 中丢失任务 0.3(TID 51、10.195.249.145、执行程序 4):java.lang。 NoClassDefFoundError:无法初始化类 net.sourceforge.tess4j.TessAPI
有谁知道为什么?非常感激!
scala - 当我尝试在 Scala 中运行 John Snow spark-nlp 示例时,我得到“任务不可序列化”
我一直在尝试从这个存储库运行 John Snow Spark-NLP 示例:
https://github.com/JohnSnowLabs/spark-nlp/blob/master/example/src/TrainViveknSentiment.scala
在我的本地机器上。但是org.apache.spark.SparkException: Task not serializable
当它到达val sparkPipeline = pipeline.fit(training)
堆栈时它会抛出错误它还说Caused by: java.io.NotSerializableException: com.johnsnowlabs.nlp.annotators.param.AnnotatorParam$SerializableFormat$
python - Spark Python Pyspark 如何使用字典数组和嵌入式字典来展平列(sparknlp 注释器输出)
我正在尝试从 sparknlp 中提取输出(使用 Pretrained Pipeline 'explain_document_dl')。我花了很多时间寻找方法(UDF、爆炸等),但无法接近可行的解决方案。假设我想在 column 下result
和metadata
从 column中提取值entities
。在该列中有一个包含多个字典的数组
当我使用df.withColumn("entity_name", explode("entities.result"))
时,只提取第一个字典中的值。
“实体”列的内容是字典列表。
尝试提供可重现的示例/重新创建数据框(感谢下面@jonathan 提供的建议):
在这种字典列表的情况下,它可以工作:
但是我被困在如何将其应用于一列,该列包含一些具有多个字典数组的单元格(因此原始单元格有多行)。
我试图将相同的模式应用于entities
列,我必须先将列转换为 json。
它适用于具有 1 个字典数组的null
单元格,但适用于具有多个字典数组(第 4 行)的单元格:
所需的输出是
我还尝试将每一行转换为 json,但我忘记了原始行并得到了扁平的儿子:
我尝试应用 UDF 来遍历“实体”中的数组列表:
我发现这篇文章Apache Spark Read JSON With Extra Columns与我的问题非常相似,但是在将列转换entities
为 json 之后,我仍然无法通过该帖子中提供的解决方案来解决它。
任何帮助表示赞赏!理想情况下,python 中的解决方案,但 scala 中的示例也很有帮助!