问题标签 [johnsnowlabs-spark-nlp]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

75 问题

0 投票

1 回答

851 浏览

python-3.x - PicklingError：无法在 Pyspark 中序列化对象

我写的火花 UDF 出现酸洗错误。它在数据帧的每一行上应用火花管道并返回类（它是一个布尔值，True 或 False）。

以下管道适用于列表中添加的数据。我附上了下面的输出。

这是结果

加载数据

定义火花 UDF

这是错误

python-3.x apache-spark pyspark johnsnowlabs-spark-nlp

2020-12-09T11:40:48.123

0 投票

1 回答

88 浏览

pyspark - 使用 BertSentenceEmbeddings 的 SparkNLP 文本分类

我正在努力使用BertSentenceEmbeddingsin python 实现分类用例。大多数情况下，我得到classNotFoundError并且我认为我无法找出正确版本的库（spark-nlp、pyspark）。我遵循了网上建议的大多数选项，但没有运气。

任何建议/教程都会有很大帮助。谢谢。

这是我的笔记本。

pyspark apache-spark-mllib johnsnowlabs-spark-nlp

2020-12-10T14:46:12.693

0 投票

1 回答

2573 浏览

python - spark-nlp 'JavaPackage' 对象不可调用

我正在使用 jupyter lab 运行 spark-nlp 文本分析。目前我只是运行示例代码：

我收到以下错误：

我阅读了一些开发人员在 spark-nlp 存储库中提出的 github 问题，但这些修复对我不起作用。我想知道使用 pyenv 是否会导致问题，但它适用于其他一切。我的 jupyter 实验室是这样启动的： /home/myuser/.pyenv/shims/jupyter lab --no-browser --allow-root --notebook-dir /home/myuser/workdir/notebooks

我的环境配置：

ubuntu：20.10 Apache Spark：3.0.1 pyspark：2.4.4 spark-nlp：2.6.5 pyenv：1.2.21

爪哇：

朱皮特：

感谢您的帮助..谢谢

python python-3.x apache-spark pyspark johnsnowlabs-spark-nlp

2020-12-23T20:58:36.893

0 投票

1 回答

561 浏览

java - java.lang.ClassNotFoundException: com.johnsnowlabs.nlp.DocumentAssembler spark 在 Pycharm 与 conda env

我从 spark-nlp 保存了一个预训练模型，然后我尝试在 Pycharm 中使用 anaconda env 运行 Python 脚本：

但我收到以下错误：（我尝试使用 pyspark 2.4.4 & spark-nlp2.4.4 和 pyspark 2.4.4 & spark-nlp2.5.4）得到同样的错误：

我是 pyspark 和 spark-nlp 的新手，有人可以帮忙吗？

java python apache-spark pyspark johnsnowlabs-spark-nlp

2021-02-05T13:45:56.273

0 投票

0 回答

392 浏览

java - pyspark.sql.utils.IllegalArgumentException：'要求失败：未找到适当的资源来下载请求

我正在尝试运行下面的示例代码：

我在 Anaconda env 中使用 Pycharm，最初我下载了 spark-nlp，pip spark-nlp==2.4.4但我看到网上有人说我应该使用：

因为pip安装时我可能缺少一些依赖项，所以更好地使用pyspark --packages，但这给了我错误：

然后我下载了这两个丢失的 jar 并将它们复制到相应的文件夹中，然后运行命令，现在一切看起来都很好：

然后我尝试重新运行顶部的示例 python 脚本，它给了我错误，这是日志：

我是新手，我已经搞砸了两天，请问有人可以帮助我吗？？？

java pyspark apache-spark-sql pycharm johnsnowlabs-spark-nlp

2021-02-05T15:25:51.843

0 投票

1 回答

136 浏览

tensorflow - 无法使用 SparkNLP 预训练的 T5Transformer，执行器失败并出现错误“图中没有名为 [encoder_input_ids] 的操作”

从 SparkNLP 网站下载 T5-small 模型，并使用此代码（几乎完全来自示例）：

我从执行者那里得到这个错误：

最初使用 Spark-2.3.0 运行，但使用 spark-2.4.4 也重现了该问题。其他 SparkNLP 功能运行良好，只有这个 T5 模型失败。磁盘上的模型：

我是 SparkNLP 的新手，所以我不确定这是一个实际问题还是我做错了什么。将不胜感激任何帮助。

tensorflow johnsnowlabs-spark-nlp

2021-02-15T12:00:31.627

0 投票

1 回答

126 浏览

scala - 加载 Spark-nlp pretrainedPipeline 时出错

当我加载 spark nlp pretrainedPipeline 时发生了一个异常，如下所示：

线程“主”java.lang.IllegalArgumentException 中的异常：不支持的类文件主要版本 59

我是 Scala 的新手，有人能认出原因吗？先感谢您。

我的代码：

我的依赖：

[ 在此处输入图像描述 ]2]

异常详情：

scala apache-spark apache-spark-sql johnsnowlabs-spark-nlp

2021-03-11T19:09:29.833

0 投票

0 回答

174 浏览

python - 如何在 Normalizer (spark nlp) 中使用多个清理模式？

我正在使用 pyspark 数据框。我需要执行 tf-idf ，为此我使用了spark NLP的标记化、规范化等先前步骤。

应用标记器后，我的 df 看起来像这样：

下一步是应用规范化器：

我想设置多个清理模式：

我试过这个：

至此cleanup = ["[^A-Za-z]"]满足第一个条件。但是现在我得到了少于 4 个字符的干净单词，我不明白如何删除这些单词。帮助将不胜感激！

python apache-spark pyspark nlp johnsnowlabs-spark-nlp

2021-03-27T11:16:04.053

0 投票

1 回答

85 浏览

apache-spark - Spark-NLP 函数在使用 map 时会出现酸洗错误

我有以下结构的RDD：

我可以使用 python 函数执行并行处理：

它给了我预期的输出。

但是，当我尝试使用 spark-NLP 断句器或情感分析器时，我收到一个错误： PicklingError: Could not serialize object: TypeError: can't pickle _thread.RLock objects

在这一行中：对于 rdd2.collect() 中的 x：

这是代码：

如果我尝试：

或者

发生错误。当我在没有“映射”的情况下运行它们时，它们会按预期运行。

有人知道如何并行执行 spark-NLP 断句器或情感分析器吗？我做错了什么？

谢谢大家！

apache-spark pyspark rdd johnsnowlabs-spark-nlp

2021-03-27T19:16:14.463

0 投票

1 回答

239 浏览

johnsnowlabs-spark-nlp - 如何在 python 中加载 SparkNLP 离线模型

我需要使用 sparknlp 在 python 中进行词形还原，我想使用预训练的管道，但是需要离线进行。这样做的正确方法是什么？我找不到任何 python 示例。

我将令牌作为输入列进行词形还原，将引理作为输出列。以下是我的代码：

错误信息：

johnsnowlabs-spark-nlp

2021-03-30T01:46:36.783

1 2 3 4 5 6 7 8 9 10