问题标签 [johnsnowlabs-spark-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
20 浏览

apache-spark - Pyspark - spark-nlp .show() 功能不起作用?

我从https://nlp.johnsnowlabs.com/docs/en/concepts复制了通用代码。流水线确实会加载,但是一旦我在文档上进行拟合和转换,就无法访​​问输出。

.show() 似乎不起作用,当我尝试 .count、.toPandas 等时也是如此。我使用 pyspark 3.1.2、spark-nlp 3.4.0 和 python 3.8 抛出的错误:

0 投票
1 回答
17 浏览

python-3.x - 如何获得预训练的 XLNET 句子嵌入?

我想获得任何给定句子的 XLNET 预训练句子嵌入。请提供代码片段以获取嵌入

0 投票
0 回答
7 浏览

download - 尝试下载 Spark NLP 的预训练模型时丢失文件错误

在尝试下载用于 Spark NLP 的预训练模型 UniversalSentenceEncoder 时,我收到了丢失文件错误。它正在寻找我不小心删除的名为use_tensorflow的文件。我在哪里可以获取此文件以手动下载并将其放在正确的文件夹中?不幸的是 pip install Tensorflow 没有工作,我在任何地方都找不到这个文件。

0 投票
0 回答
12 浏览

apache-spark-mllib - SparkNLP 有一种方法可以将嵌入管道从分类器中分离出来,以便为多个分类器重用嵌入层

我正在尝试为使用相同句子嵌入阶段的不同任务创建多个分类器。

通过重用同一个句子嵌入层的内存消耗将显着减少,因为嵌入层使用大约 300mb 并且分类器大约是 50mb。

我当前的管道如下所示:

我正在尝试做这样的事情:

然后使用该管道的嵌入输出作为训练集来拟合分类器。

有两种可能的方法来做到这一点:

  • 方法一:ClassifierDLApproach直接从fit方法中使用(这里我需要模拟上句嵌入阶段的输出和元数据
  • 方法 2:使用只有自定义“嵌入文档汇编器”阶段和分类器阶段的新管道

在训练 prePipeline(句子嵌入管道)之后,所有其他分类器都可以重复使用以进行推理

我的主要问题是,如果没有某种 hack,就无法实现任何方法。

  • 有没有办法在不求助于黑客的情况下做到这一点?
  • 有没有更好的方法来解决这个问题?
0 投票
0 回答
19 浏览

java - java.lang.VerifyError:错误的返回类型原因:类型'java/lang/Object'(当前帧,堆栈[0])不可分配给'org/tensorflow/Tensor'

我想在 python 中运行 sparknlp,我使用的是 apache-spark 3.2.1,spark-nlp==3.4.1 pyspark==3.1.2。我正在遵循本指南。我可以使用以下代码获得火花会话:

每当我尝试使用代码下载任何预训练模型时:

我遇到了一些错误,我通过在 apache-spark jar 中添加该错误的 jar 来一一解决了一些错误。例如:错误之一是:

我通过添加 NdArray Jar 解决了

像这样我根据错误添加了 6-7 个罐子。

我遇到的错误是:

PS我正在使用java 8