“johnsnowlabs-spark-nlp”的相关标签问题

0 投票

2 回答

2265 浏览

python - spark-nlp：DocumentAssembler 初始化失败，出现“java.lang.NoClassDefFoundError: org/apache/spark/ml/util/MLWritable$class”

我正在尝试 https://medium.com/spark-nlp/applying-context-aware-spell-checking-in-spark-nlp-3c29c46963bc 中提供的ContenxtAwareSpellChecker

管道中的第一个组件是DocumentAssembler

上面的代码运行失败时如下

编辑：Apache Spark 版本是 2.4.6

2020-08-13T15:16:25.443

0 投票

1 回答

942 浏览

apache-spark - 如何安装离线 Spark NLP 包

如何在没有互联网连接的情况下安装离线 Spark NLP 包。我已下载包 ( recognizee_entities_dl) 并将其上传到集群。

我已经使用pip install spark-nlp==2.5.5. 我正在使用 PySpark，但无法从集群下载软件包。

已经尝试过；

错误：

apache-spark pyspark johnsnowlabs-spark-nlp

2020-08-17T07:20:59.510

0 投票

0 回答

115 浏览

apache-spark - 由于异常而无法运行 spark-nlp：Java 网关进程在发送其端口号之前已退出

我有一个通过 Jupyter 在 Ubuntu VM 上运行的 Pyspark 安装。
只有一个 Java 版本 ( openjdk version "1.8.0_265")，我可以像这样运行本地 Spark (v2.4.4) 会话而不会出现问题：

现在我想使用spark-nlp. 我已经安装在我的spark-nlpPysparkpip install spark-nlp所在的同一虚拟环境中。

但是，当我尝试使用它时，我得到了错误Exception: Java gateway process exited before sending its port number。

我尝试按照此处文档中的说明进行操作，但没有成功。

这样做

只会导致上面提到的错误。

我该如何解决？

apache-spark pyspark johnsnowlabs-spark-nlp

2020-08-18T12:35:59.013

0 投票

1 回答

187 浏览

python - 通过 numpy 向量化对一些 pyspark 数据框列进行 NLP 分析

我想对 pyspark 数据框中的字符串列进行一些 NLP 分析。

东风：

每个 p_id 代表一个项目。每个 u_id 可能对每个项目都有一些评论。评论可以是几个词，一个句子或一个段落，甚至是表情符号。

我想找出这些项目被评为低或高的根本原因。例如，有多少“u_id”抱怨物品的尺寸、化学元素过敏或其他与物品特性相关的问题。

从How to iterate over rows in a DataFrame in Pandas 中，我了解到将数据帧转换为 numpy 数组然后使用向量化进行 NLP 分析更有效。

我正在尝试使用 SparkNLP 按年、月、u_id、p_id 为每个评论提取形容词和名词短语。

我不确定如何应用 numpy 矢量化来非常有效地做到这一点。

我的py3代码：

代码不起作用。我还需要在向量化中保留其他列（例如年、月、u_id、p_id），并确保 NLP 分析结果可以与年、月、u_id、p_id 很好地对齐。

我不喜欢如何将 pyspark 数据框列转换为 numpy 数组，因为 collect() 太慢了。

谢谢

python apache-spark pyspark nlp johnsnowlabs-spark-nlp

2020-08-25T05:53:03.027

0 投票

0 回答

94 浏览

tensorflow - 使用 Conda 安装支持 GPU 的 Spark NLP？

Spark NLP 安装说明：

https://nlp.johnsnowlabs.com/docs/en/install

有几种不同的安装 Spark NLP 的方法，用几种不同的语言。他们有使用 GPU 支持安装它的说明，但不是 pip/conda。有没有办法做到这一点？是否可以安装 spark nlp，单独安装 TF，并将 spark nlp 指向带 gpu 支持的 TF 安装？

tensorflow pip anaconda johnsnowlabs-spark-nlp

2020-10-01T14:12:43.117

0 投票

1 回答

155 浏览

apache-spark - spark nlp中的多语言bert

我想知道 sparknlp 中是否可以使用预训练的多语言 Bert？如您所知，Bert 已针对 109 种语言进行了预训练。我想知道是否所有这些语言也都在 spark bert 中？

谢谢

apache-spark bert-language-model johnsnowlabs-spark-nlp

2020-10-18T19:26:54.867

0 投票

1 回答

526 浏览

nlp - SPARKNLP 或 BERT 中的 BERT 嵌入，用于在拥抱脸中进行标记分类

目前我正致力于在 Spark 上生产一个 NER 模型。我目前有一个使用 Huggingface DISTILBERT 和 TokenClassification 头的实现，但是由于性能有点慢且成本高，我正在尝试寻找优化的方法。

我检查了 SPARKNLP 实现，它缺少预训练的 DISTILBERT，并且我认为有不同的方法，因此出现了一些关于此的问题：

Huggingface 使用了整个 BERT 模型，并为 token 分类添加了一个 head。这与获取 BERT 嵌入并将它们馈送到另一个 NN 是否相同？
我问这个是因为这是 SPARKNLP 方法，一个有助于获取这些嵌入并将其用作另一个复杂 NN 的特征的类。这不会丢失BERT内部的一些知识吗？
SPARKNLP 是否对 SPARK 进行了任何优化以帮助缩短推理时间，或者它只是另一种 BERT 实现。

nlp bert-language-model huggingface-transformers johnsnowlabs-spark-nlp

2020-10-30T10:09:40.147

0 投票

1 回答

223 浏览

azure - Azure 函数应用在几秒钟后停止响应，导致超时

我正在尝试将 spark-nlp 作为 azure 函数运行。

我有一个使用 docker 容器运行的函数应用程序。我的函数应用程序代码在 python 上运行，并且我在其中运行 pyspark 时还安装了 java。我在一个函数中使用 python 的烧瓶来处理传入的请求。

一旦函数应用程序启动并且容器正在运行，在最初的几秒钟内，我会收到 API 调用的响应，但仅在几秒钟（~15-20 秒）后，由于服务器没有响应，API 调用就会开始超时。

函数应用在专用应用服务计划上运行并设置为“始终开启”。

这种行为的原因是什么？

这是我的函数应用程序代码：

azure azure-functions azure-function-app azure-appservice johnsnowlabs-spark-nlp

2020-11-10T18:06:22.227

0 投票

1 回答

107 浏览

apache-spark - 与 SparkNLP 的句子相似性仅适用于具有一个句子的 Google Dataproc，当提供多个句子时会失败

将以下 colab python 代码（请参见下面的链接）部署到 Google Cloud 上的 Dataproc，它仅在input_list是一个包含一个项目的数组时才有效，当input_list有两个项目时，PySpark 作业在“for r”行终止并出现以下错误在下面的 get_similarity 方法中的 result.collect()" 中：

使用 spark-nlp 链接到 colab 的句子相似性： https ://colab.research.google.com/github/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/streamlit_notebooks/SENTENCE_SIMILARITY.ipynb#scrollTo=6E0Y5wtunFi4

我尝试在 hadoop 集群配置中更改为，但仍然没有运气dfs.datanode.max.transfer.threads：8192

当input_list在数组中有多个项目时，如何使此代码正常工作？

apache-spark hadoop hdfs google-cloud-dataproc johnsnowlabs-spark-nlp

2020-11-18T21:03:11.290

0 投票

1 回答

1479 浏览

python - Spark-nlp 预训练模型未在 Windows 中加载

我正在尝试使用 python 在 windows 10 中的 spark-nlp 中安装预训练管道。以下是我目前在本地系统的 Jupyter notebook 中尝试过的代码：

我收到以下错误：

python python-3.x apache-spark pyspark johnsnowlabs-spark-nlp

2020-11-28T20:19:00.667

问题标签 [johnsnowlabs-spark-nlp]

Reference