问题标签 [johnsnowlabs-spark-nlp]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

75 问题

0 投票

0 回答

20 浏览

apache-spark - Pyspark - spark-nlp .show() 功能不起作用？

我从https://nlp.johnsnowlabs.com/docs/en/concepts复制了通用代码。流水线确实会加载，但是一旦我在文档上进行拟合和转换，就无法访问输出。

.show() 似乎不起作用，当我尝试 .count、.toPandas 等时也是如此。我使用 pyspark 3.1.2、spark-nlp 3.4.0 和 python 3.8 抛出的错误：

2022-01-26T08:59:51.143

0 投票

1 回答

17 浏览

python-3.x - 如何获得预训练的 XLNET 句子嵌入？

我想获得任何给定句子的 XLNET 预训练句子嵌入。请提供代码片段以获取嵌入

python-3.x nlp bert-language-model johnsnowlabs-spark-nlp

2022-02-02T06:57:36.023

0 投票

0 回答

7 浏览

download - 尝试下载 Spark NLP 的预训练模型时丢失文件错误

在尝试下载用于 Spark NLP 的预训练模型 UniversalSentenceEncoder 时，我收到了丢失文件错误。它正在寻找我不小心删除的名为use_tensorflow的文件。我在哪里可以获取此文件以手动下载并将其放在正确的文件夹中？不幸的是 pip install Tensorflow 没有工作，我在任何地方都找不到这个文件。

download pre-trained-model johnsnowlabs-spark-nlp

2022-02-09T06:07:06.710

0 投票

0 回答

12 浏览

apache-spark-mllib - SparkNLP 有一种方法可以将嵌入管道从分类器中分离出来，以便为多个分类器重用嵌入层

我正在尝试为使用相同句子嵌入阶段的不同任务创建多个分类器。

通过重用同一个句子嵌入层的内存消耗将显着减少，因为嵌入层使用大约 300mb 并且分类器大约是 50mb。

我当前的管道如下所示：

我正在尝试做这样的事情：

然后使用该管道的嵌入输出作为训练集来拟合分类器。

有两种可能的方法来做到这一点：

方法一：ClassifierDLApproach直接从fit方法中使用（这里我需要模拟上句嵌入阶段的输出和元数据
方法 2：使用只有自定义“嵌入文档汇编器”阶段和分类器阶段的新管道

在训练 prePipeline（句子嵌入管道）之后，所有其他分类器都可以重复使用以进行推理

我的主要问题是，如果没有某种 hack，就无法实现任何方法。

有没有办法在不求助于黑客的情况下做到这一点？
有没有更好的方法来解决这个问题？

apache-spark-mllib apache-spark-ml johnsnowlabs-spark-nlp

2022-02-15T10:32:25.200

0 投票

0 回答

19 浏览

java - java.lang.VerifyError：错误的返回类型原因：类型'java/lang/Object'（当前帧，堆栈[0]）不可分配给'org/tensorflow/Tensor'

我想在 python 中运行 sparknlp，我使用的是 apache-spark 3.2.1，spark-nlp==3.4.1 pyspark==3.1.2。我正在遵循本指南。我可以使用以下代码获得火花会话：

每当我尝试使用代码下载任何预训练模型时：

我遇到了一些错误，我通过在 apache-spark jar 中添加该错误的 jar 来一一解决了一些错误。例如：错误之一是：

我通过添加 NdArray Jar 解决了

像这样我根据错误添加了 6-7 个罐子。

我遇到的错误是：

PS我正在使用java 8

java tensorflow apache-spark pyspark johnsnowlabs-spark-nlp

2022-02-21T18:38:39.360

1 2 3 4 5 6 7 8 9 10

问题标签 [johnsnowlabs-spark-nlp]

apache-spark - Pyspark - spark-nlp .show() 功能不起作用？

python-3.x - 如何获得预训练的 XLNET 句子嵌入？

download - 尝试下载 Spark NLP 的预训练模型时丢失文件错误

apache-spark-mllib - SparkNLP 有一种方法可以将嵌入管道从分类器中分离出来，以便为多个分类器重用嵌入层

java - java.lang.VerifyError：错误的返回类型原因：类型'java/lang/Object'（当前帧，堆栈[0]）不可分配给'org/tensorflow/Tensor'

Reference