问题标签 [johnsnowlabs-spark-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - PicklingError:无法在 Pyspark 中序列化对象
我写的火花 UDF 出现酸洗错误。它在数据帧的每一行上应用火花管道并返回类(它是一个布尔值,True 或 False)。
以下管道适用于列表中添加的数据。我附上了下面的输出。
这是结果
加载数据
定义火花 UDF
这是错误
pyspark - 使用 BertSentenceEmbeddings 的 SparkNLP 文本分类
我正在努力使用BertSentenceEmbeddings
in python 实现分类用例。大多数情况下,我得到classNotFoundError
并且我认为我无法找出正确版本的库(spark-nlp、pyspark)。我遵循了网上建议的大多数选项,但没有运气。
任何建议/教程都会有很大帮助。谢谢。
这是我的笔记本。
python - spark-nlp 'JavaPackage' 对象不可调用
我正在使用 jupyter lab 运行 spark-nlp 文本分析。目前我只是运行示例代码:
我收到以下错误:
我阅读了一些开发人员在 spark-nlp 存储库中提出的 github 问题,但这些修复对我不起作用。我想知道使用 pyenv 是否会导致问题,但它适用于其他一切。我的 jupyter 实验室是这样启动的:
/home/myuser/.pyenv/shims/jupyter lab --no-browser --allow-root --notebook-dir /home/myuser/workdir/notebooks
我的环境配置:
ubuntu:20.10
Apache Spark:3.0.1
pyspark:2.4.4
spark-nlp:2.6.5
pyenv:1.2.21
爪哇:
朱皮特:
感谢您的帮助..谢谢
java - java.lang.ClassNotFoundException: com.johnsnowlabs.nlp.DocumentAssembler spark 在 Pycharm 与 conda env
我从 spark-nlp 保存了一个预训练模型,然后我尝试在 Pycharm 中使用 anaconda env 运行 Python 脚本:
但我收到以下错误:(我尝试使用 pyspark 2.4.4 & spark-nlp2.4.4 和 pyspark 2.4.4 & spark-nlp2.5.4)得到同样的错误:
我是 pyspark 和 spark-nlp 的新手,有人可以帮忙吗?
java - pyspark.sql.utils.IllegalArgumentException:'要求失败:未找到适当的资源来下载请求
我正在尝试运行下面的示例代码:
我在 Anaconda env 中使用 Pycharm,最初我下载了 spark-nlp,pip spark-nlp==2.4.4
但我看到网上有人说我应该使用:
因为pip
安装时我可能缺少一些依赖项,所以更好地使用pyspark --packages
,但这给了我错误:
然后我下载了这两个丢失的 jar 并将它们复制到相应的文件夹中,然后运行命令,现在一切看起来都很好:
然后我尝试重新运行顶部的示例 python 脚本,它给了我错误,这是日志:
我是新手,我已经搞砸了两天,请问有人可以帮助我吗???
tensorflow - 无法使用 SparkNLP 预训练的 T5Transformer,执行器失败并出现错误“图中没有名为 [encoder_input_ids] 的操作”
从 SparkNLP 网站下载 T5-small 模型,并使用此代码(几乎完全来自示例):
我从执行者那里得到这个错误:
最初使用 Spark-2.3.0 运行,但使用 spark-2.4.4 也重现了该问题。其他 SparkNLP 功能运行良好,只有这个 T5 模型失败。磁盘上的模型:
我是 SparkNLP 的新手,所以我不确定这是一个实际问题还是我做错了什么。将不胜感激任何帮助。
python - 如何在 Normalizer (spark nlp) 中使用多个清理模式?
我正在使用 pyspark 数据框。我需要执行 tf-idf ,为此我使用了spark NLP的标记化、规范化等先前步骤。
应用标记器后,我的 df 看起来像这样:
下一步是应用规范化器:
我想设置多个清理模式:
我试过这个:
至此cleanup = ["[^A-Za-z]"]
满足第一个条件。但是现在我得到了少于 4 个字符的干净单词,我不明白如何删除这些单词。帮助将不胜感激!
apache-spark - Spark-NLP 函数在使用 map 时会出现酸洗错误
我有以下结构的RDD:
我可以使用 python 函数执行并行处理:
它给了我预期的输出。
但是,当我尝试使用 spark-NLP 断句器或情感分析器时,我收到一个错误: PicklingError: Could not serialize object: TypeError: can't pickle _thread.RLock objects
在这一行中:对于 rdd2.collect() 中的 x:
这是代码:
如果我尝试:
或者
发生错误。当我在没有“映射”的情况下运行它们时,它们会按预期运行。
有人知道如何并行执行 spark-NLP 断句器或情感分析器吗?我做错了什么?
谢谢大家!
johnsnowlabs-spark-nlp - 如何在 python 中加载 SparkNLP 离线模型
我需要使用 sparknlp 在 python 中进行词形还原,我想使用预训练的管道,但是需要离线进行。这样做的正确方法是什么?我找不到任何 python 示例。
我将令牌作为输入列进行词形还原,将引理作为输出列。以下是我的代码:
错误信息: