问题标签 [johnsnowlabs-spark-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
851 浏览

python-3.x - PicklingError:无法在 Pyspark 中序列化对象

我写的火花 UDF 出现酸洗错误。它在数据帧的每一行上应用火花管道并返回类(它是一个布尔值,True 或 False)。

以下管道适用于列表中添加的数据。我附上了下面的输出。

这是结果

加载数据

定义火花 UDF

这是错误

0 投票
1 回答
88 浏览

pyspark - 使用 BertSentenceEmbeddings 的 SparkNLP 文本分类

我正在努力使用BertSentenceEmbeddingsin python 实现分类用例。大多数情况下,我得到classNotFoundError并且我认为我无法找出正确版本的库(spark-nlp、pyspark)。我遵循了网上建议的大多数选项,但没有运气。

任何建议/教程都会有很大帮助。谢谢。

这是我的笔记本

0 投票
1 回答
2573 浏览

python - spark-nlp 'JavaPackage' 对象不可调用

我正在使用 jupyter lab 运行 spark-nlp 文本分析。目前我只是运行示例代码:

我收到以下错误:

我阅读了一些开发人员在 spark-nlp 存储库中提出的 github 问题,但这些修复对我不起作用。我想知道使用 pyenv 是否会导致问题,但它适用于其他一切。我的 jupyter 实验室是这样启动的: /home/myuser/.pyenv/shims/jupyter lab --no-browser --allow-root --notebook-dir /home/myuser/workdir/notebooks

我的环境配置:

ubuntu:20.10 Apache Spark:3.0.1 pyspark:2.4.4 spark-nlp:2.6.5 pyenv:1.2.21

爪哇:

朱皮特:

感谢您的帮助..谢谢

0 投票
1 回答
561 浏览

java - java.lang.ClassNotFoundException: com.johnsnowlabs.nlp.DocumentAssembler spark 在 Pycharm 与 conda env

我从 spark-nlp 保存了一个预训练模型,然后我尝试在 Pycharm 中使用 anaconda env 运行 Python 脚本:

但我收到以下错误:(我尝试使用 pyspark 2.4.4 & spark-nlp2.4.4 和 pyspark 2.4.4 & spark-nlp2.5.4)得到同样的错误:

我是 pyspark 和 spark-nlp 的新手,有人可以帮忙吗?

0 投票
0 回答
392 浏览

java - pyspark.sql.utils.IllegalArgumentException:'要求失败:未找到适当的资源来下载请求

我正在尝试运行下面的示例代码:

我在 Anaconda env 中使用 Pycharm,最初我下载了 spark-nlp,pip spark-nlp==2.4.4但我看到网上有人说我应该使用:

因为pip安装时我可能缺少一些依赖项,所以更好地使用pyspark --packages,但这给了我错误:

然后我下载了这两个丢失的 jar 并将它们复制到相应的文件夹中,然后运行命令,现在一切看起来都很好:

然后我尝试重新运行顶部的示例 python 脚本,它给了我错误,这是日志:

我是新手,我已经搞砸了两天,请问有人可以帮助我吗???

0 投票
1 回答
136 浏览

tensorflow - 无法使用 SparkNLP 预训练的 T5Transformer,执行器失败并出现错误“图中没有名为 [encoder_input_ids] 的操作”

从 SparkNLP 网站下载 T5-small 模型,并使用此代码(几乎完全来自示例):

我从执行者那里得到这个错误:

最初使用 Spark-2.3.0 运行,但使用 spark-2.4.4 也重现了该问题。其他 SparkNLP 功能运行良好,只有这个 T5 模型失败。磁盘上的模型:

我是 SparkNLP 的新手,所以我不确定这是一个实际问题还是我做错了什么。将不胜感激任何帮助。

0 投票
1 回答
126 浏览

scala - 加载 Spark-nlp pretrainedPipeline 时出错

当我加载 spark nlp pretrainedPipeline 时发生了一个异常,如下所示:

线程“主”java.lang.IllegalArgumentException 中的异常:不支持的类文件主要版本 59

我是 Scala 的新手,有人能认出原因吗?先感谢您。

我的代码:

在此处输入图像描述

我的依赖:

[ 在此处输入图像描述]2]

异常详情:

在此处输入图像描述

0 投票
0 回答
174 浏览

python - 如何在 Normalizer (spark nlp) 中使用多个清理模式?

我正在使用 pyspark 数据框。我需要执行 tf-idf ,为此我使用了spark NLP的标记化、规范化等先前步骤。

应用标记器后,我的 df 看起来像这样:

下一步是应用规范化器:

我想设置多个清理模式:

我试过这个:

至此cleanup = ["[^A-Za-z]"]满足第一个条件。但是现在我得到了少于 4 个字符的干净单词,我不明白如何删除这些单词。帮助将不胜感激!

0 投票
1 回答
85 浏览

apache-spark - Spark-NLP 函数在使用 map 时会出现酸洗错误

我有以下结构的RDD:

我可以使用 python 函数执行并行处理:

它给了我预期的输出。

但是,当我尝试使用 spark-NLP 断句器或情感分析器时,我收到一个错误: PicklingError: Could not serialize object: TypeError: can't pickle _thread.RLock objects

在这一行中:对于 rdd2.collect() 中的 x:

这是代码:

如果我尝试:

或者

发生错误。当我在没有“映射”的情况下运行它们时,它们会按预期运行。

有人知道如何并行执行 spark-NLP 断句器或情感分析器吗?我做错了什么?

谢谢大家!

0 投票
1 回答
239 浏览

johnsnowlabs-spark-nlp - 如何在 python 中加载 SparkNLP 离线模型

我需要使用 sparknlp 在 python 中进行词形还原,我想使用预训练的管道,但是需要离线进行。这样做的正确方法是什么?我找不到任何 python 示例。

我将令牌作为输入列进行词形还原,将引理作为输出列。以下是我的代码:

错误信息: