问题标签 [johnsnowlabs-spark-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
141 浏览

nlp - 在 spark-nlp 中加载 BERT 嵌入模型时出现“Param poolingLayer 不存在”错误

我的 NLP 管道使用来自 johnsnowlabs 的预训练 BERT 嵌入模型“bert_base_uncased”。但是在加载这个下载的模型时,我遇到了以下异常。

0 投票
1 回答
402 浏览

python - 如何在 pyspark 列上使用“LanguageDetectorDL”火花 NLP?

我正在使用 pyspark 数据框。
我的 df 看起来像这样:

我需要在类型列上LanguageDetectorDL使用spark NLP,以便它检测英语并仅保留英语单词并删除其他单词。wordsarray<strings>

我已经习惯DocumentAssembler()将数据转换为注释格式:

documentAssembler = DocumentAssembler().setInputCol('words').setOutputCol('document')

但我不知道如何LanguageDetectorDL在列上使用并摆脱非英语单词?

0 投票
1 回答
2391 浏览

python - py4j.protocol.Py4JNetworkError:Java 端的答案为空

这是我在 Google Colab 上使用的代码。它一直卡在 model.fit 部分并引发此异常。我无法在任何地方找到任何解决方案。Colab 上的内存似乎也变得非常高,开始认为 spark nlp 库中存在内存泄漏。

错误:

0 投票
1 回答
244 浏览

java - 胶水作业失败,随机出现“未找到 JohnSnowLabs spark-nlp 依赖项”错误

我正在使用 AWS Glue 运行一些 pyspark python 代码,有时它成功但有时因依赖错误而失败:Resource Setup Error: Exception in thread "main" java.lang.RuntimeException: [unresolved dependency: JohnSnowLabs#spark-nlp;2.5.4: not found],这是错误日志:

从成功运行的日志中,我可以看到胶水能够从 下载依赖项https://dl.bintray.com/spark-packages/maven/JohnSnowLabs/spark-nlp/2.5.4/spark-nlp-2.5.4.pom,失败的作业也尝试从中下载,但失败了。

这个问题上周似乎自行解决了,但最近几天又出现了,到目前为止还没有自行解决。有没有人见过这个奇怪的问题?谢谢。

0 投票
1 回答
173 浏览

python-3.x - 为医疗保健安装 spark NLP 时出错

根据https://nlp.johnsnowlabs.com/docs/en/licensed_install,安装 spark-nlp-jsl 的命令如下。
pip install -q spark-nlp-jsl==${version} --extra-index-url https://pypi.johnsnowlabs.com/${secret.code} --upgrade

我尝试提供版本为3.0.2和我的{secret.code}但收到以下错误:
收集 spark-nlp-jsl==3.0.2
异常:
回溯(最近一次调用最后一次):

0 投票
1 回答
154 浏览

apache-spark - 将大型 sparknlp 管道加载到 Apache Spark 批处理作业中花费的时间太长

我正在使用 johnsnowlabs 的 SparkNLP 从我的文本数据中提取嵌入,下面是管道。模型保存到hdfs后大小为1.8g

我保存pipeline_modelHDFS使用pipeline_model.save("hdfs:///<path>").

以上只执行了一次

在另一个脚本中,我正在HDFS使用pipeline_model = PretrainedPipeline.from_disk("hdfs:///<path>").

上面的代码加载了模型,但是占用了太多。我在 spark 本地模型(无集群)上对其进行了测试,但我拥有 94g RAM、32 核的高资源。

后来,我用 12 个 Executor 将脚本部署在 yarn 上,每个 Executor 有 3 个内核和 7g ram。我分配了 10g 的驱动程序内存。

该脚本再次花费太多时间从 HDFS 加载保存的模型。

当火花到达这一点时,需要太多时间

当火花到达这一点时(见上面的截图),需要太多时间

我想到了一个方法

预加载

我认为的方法是以某种方式将模型预加载到内存中,当脚本想要对数据帧应用转换时,我可以以某种方式调用对预训练管道的引用并在旅途中使用它,而无需执行任何磁盘 i /o. 我搜索了,但它导致无处可去。

请让我知道您对此解决方案的看法以及实现此目标的最佳方法是什么。

YARN 资源

节点名称 数数 内存(每个) 核心(每个)
主节点 1 38克 8
辅助节点 1 38 克 8
工作节点 4 24 克 4
全部的 6 172克 32

谢谢

0 投票
0 回答
69 浏览

python - Spark NLP 分类器总是预测同一个类

我正在使用 Spark NLP 训练分类模型。我已按照本教程进行操作,以下大部分代码都来自那里。

这是我的训练脚本:

然而,分类器总是预测同一个类。我哪里错了?谢谢。

0 投票
1 回答
150 浏览

python - 尝试显示模型结果时 Sparknlp Java 错误

我正在尝试从使用 Spark-NLP 创建的练习 NLP 模型中输出结果。但是,我不断收到以下错误。有谁可以帮我离开这里吗。当我尝试输出数据帧时,.show() 方法在代码的早期工作。每当我尝试输出模型结果的任何部分时,它都会失败。

我正在 Windows 机器上运行 Jupyter Notebook 中的代码。我的机器上有 pyspark spark-3.0.3 和 Hadoop 2.7。

使用的代码

错误

0 投票
0 回答
50 浏览

scala - SparkNLP NerDLModel 加载抛出 NoSuchMethodException

我目前正在使用 John Snow 实验室的 SparkNLP 库来训练自定义 NER 模型。我能够成功完成训练并且模型被保存到磁盘中。当我尝试为下一步加载模型以实际标记一些示例数据时,我遇到了以下错误。我在 Windows 10 上使用 Ubuntu。 spark-nlp_2.12:3.1.2 和 Spark 3.1.2,scala 2.12.10 OpenJDK 8

我也在 PySpark 上尝试过同样的方法,我得到了相同的确切错误 pyspark 错误:

java.lang.NoSuchMethodException: org.apache.spark.ml.PipelineModel.(java.lang.String) at java.lang.Class.getConstructor0(Class.java:3082) at java.lang.Class.getConstructor(Class.java :1825) 在 org.apache.spark.ml.util.DefaultParamsReader.load(ReadWrite.scala:468) 在 com.johnsnowlabs.nlp.FeaturesReader.load(ParamsAndFeaturesReadable.scala:12) 在 sun.reflect.NativeMethodAccessorImpl.invoke0( Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) py4j.Gateway.invoke(Gateway.java:282) py4j.commands.AbstractCommand。invokeMethod(AbstractCommand.java:132) at py4j.commands.CallCommand.execute(CallCommand.java:79) at py4j.GatewayConnection.run(GatewayConnection.java:238) at java.lang.Thread.run(Thread.java:748 )

任何帮助表示赞赏。Scala 版本错误 java.lang.NoSuchMethodException:

org.apache.spark.ml.PipelineModel.(java.lang.String) at java.lang.Class.getConstructor0(Class.java:3082) at java.lang.Class.getConstructor(Class.java:1825) at org. apache.spark.ml.util.DefaultParamsReader.load(ReadWrite.scala:468) at com.johnsnowlabs.nlp.FeaturesReader.load(ParamsAndFeaturesReadable.scala:12) at com.johnsnowlabs.nlp.FeaturesReader.load(ParamsAndFeaturesReadable.scala: 8)

0 投票
1 回答
86 浏览

pyspark - 无法从 spark 数据框中导出数据

我使用 spark NLP 解析了 500k 条推文作为测试。数据框看起来不错。我将数组转换为字符串。使用

数据框看起来不错。但是,每当我尝试将其转换为 pandas 时,将其导出为 csv 我都会收到以下错误

这让我觉得 spark 不是在和 python 说话。有谁知道问题可能是什么?