问题标签 [johnsnowlabs-spark-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - spark-nlp:DocumentAssembler 初始化失败,出现“java.lang.NoClassDefFoundError: org/apache/spark/ml/util/MLWritable$class”
我正在尝试 https://medium.com/spark-nlp/applying-context-aware-spell-checking-in-spark-nlp-3c29c46963bc 中提供的ContenxtAwareSpellChecker
管道中的第一个组件是DocumentAssembler
上面的代码运行失败时如下
编辑:Apache Spark 版本是 2.4.6
apache-spark - 如何安装离线 Spark NLP 包
如何在没有互联网连接的情况下安装离线 Spark NLP 包。我已下载包 ( recognizee_entities_dl
) 并将其上传到集群。
我已经使用pip install spark-nlp==2.5.5
. 我正在使用 PySpark,但无法从集群下载软件包。
已经尝试过;
错误:
apache-spark - 由于异常而无法运行 spark-nlp:Java 网关进程在发送其端口号之前已退出
我有一个通过 Jupyter 在 Ubuntu VM 上运行的 Pyspark 安装。
只有一个 Java 版本 ( openjdk version "1.8.0_265"
),我可以像这样运行本地 Spark (v2.4.4) 会话而不会出现问题:
现在我想使用spark-nlp
. 我已经安装在我的spark-nlp
Pysparkpip install spark-nlp
所在的同一虚拟环境中。
但是,当我尝试使用它时,我得到了错误Exception: Java gateway process exited before sending its port number
。
我尝试按照此处文档中的说明进行操作,但没有成功。
这样做
只会导致上面提到的错误。
我该如何解决?
python - 通过 numpy 向量化对一些 pyspark 数据框列进行 NLP 分析
我想对 pyspark 数据框中的字符串列进行一些 NLP 分析。
东风:
每个 p_id 代表一个项目。每个 u_id 可能对每个项目都有一些评论。评论可以是几个词,一个句子或一个段落,甚至是表情符号。
我想找出这些项目被评为低或高的根本原因。例如,有多少“u_id”抱怨物品的尺寸、化学元素过敏或其他与物品特性相关的问题。
从How to iterate over rows in a DataFrame in Pandas 中,我了解到将数据帧转换为 numpy 数组然后使用向量化进行 NLP 分析更有效。
我正在尝试使用 SparkNLP 按年、月、u_id、p_id 为每个评论提取形容词和名词短语。
我不确定如何应用 numpy 矢量化来非常有效地做到这一点。
我的py3代码:
代码不起作用。我还需要在向量化中保留其他列(例如年、月、u_id、p_id),并确保 NLP 分析结果可以与年、月、u_id、p_id 很好地对齐。
我不喜欢 如何将 pyspark 数据框列转换为 numpy 数组,因为 collect() 太慢了。
谢谢
tensorflow - 使用 Conda 安装支持 GPU 的 Spark NLP?
Spark NLP 安装说明:
https://nlp.johnsnowlabs.com/docs/en/install
有几种不同的安装 Spark NLP 的方法,用几种不同的语言。他们有使用 GPU 支持安装它的说明,但不是 pip/conda。有没有办法做到这一点?是否可以安装 spark nlp,单独安装 TF,并将 spark nlp 指向带 gpu 支持的 TF 安装?
apache-spark - spark nlp中的多语言bert
我想知道 sparknlp 中是否可以使用预训练的多语言 Bert?如您所知,Bert 已针对 109 种语言进行了预训练。我想知道是否所有这些语言也都在 spark bert 中?
谢谢
nlp - SPARKNLP 或 BERT 中的 BERT 嵌入,用于在拥抱脸中进行标记分类
目前我正致力于在 Spark 上生产一个 NER 模型。我目前有一个使用 Huggingface DISTILBERT 和 TokenClassification 头的实现,但是由于性能有点慢且成本高,我正在尝试寻找优化的方法。
我检查了 SPARKNLP 实现,它缺少预训练的 DISTILBERT,并且我认为有不同的方法,因此出现了一些关于此的问题:
- Huggingface 使用了整个 BERT 模型,并为 token 分类添加了一个 head。这与获取 BERT 嵌入并将它们馈送到另一个 NN 是否相同?
- 我问这个是因为这是 SPARKNLP 方法,一个有助于获取这些嵌入并将其用作另一个复杂 NN 的特征的类。这不会丢失BERT内部的一些知识吗?
- SPARKNLP 是否对 SPARK 进行了任何优化以帮助缩短推理时间,或者它只是另一种 BERT 实现。
azure - Azure 函数应用在几秒钟后停止响应,导致超时
我正在尝试将 spark-nlp 作为 azure 函数运行。
我有一个使用 docker 容器运行的函数应用程序。我的函数应用程序代码在 python 上运行,并且我在其中运行 pyspark 时还安装了 java。我在一个函数中使用 python 的烧瓶来处理传入的请求。
一旦函数应用程序启动并且容器正在运行,在最初的几秒钟内,我会收到 API 调用的响应,但仅在几秒钟(~15-20 秒)后,由于服务器没有响应,API 调用就会开始超时。
函数应用在专用应用服务计划上运行并设置为“始终开启”。
这种行为的原因是什么?
这是我的函数应用程序代码:
apache-spark - 与 SparkNLP 的句子相似性仅适用于具有一个句子的 Google Dataproc,当提供多个句子时会失败
将以下 colab python 代码(请参见下面的链接)部署到 Google Cloud 上的 Dataproc,它仅在input_list是一个包含一个项目的数组时才有效,当input_list有两个项目时,PySpark 作业在“for r”行终止并出现以下错误在下面的 get_similarity 方法中的 result.collect()" 中:
使用 spark-nlp 链接到 colab 的句子相似性: https ://colab.research.google.com/github/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/streamlit_notebooks/SENTENCE_SIMILARITY.ipynb#scrollTo=6E0Y5wtunFi4
我尝试在 hadoop 集群配置中更改为,但仍然没有运气dfs.datanode.max.transfer.threads
:8192
当input_list在数组中有多个项目时,如何使此代码正常工作?
python - Spark-nlp 预训练模型未在 Windows 中加载
我正在尝试使用 python 在 windows 10 中的 spark-nlp 中安装预训练管道。以下是我目前在本地系统的 Jupyter notebook 中尝试过的代码:
我收到以下错误: