问题标签 [johnsnowlabs-spark-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
36 浏览

python - Pycharm 不支持包依赖项

我安装了一个 pycharm 应用程序并配置了解释器。在我通过 pycharm 中的 pip 安装 spark-nlp 包并尝试运行程序后,它表明它缺少 pyspark 包形式的依赖关系。当我安装 pyspark 时,它抱怨丢失了一堆软件包。venv 不应该自动解决所有要求吗?

0 投票
0 回答
162 浏览

scala - 如何使用 sparknlp 注释文本文件?

我正在使用 Sparknlp 在 databrick 中注释一个长文本文件。我的代码是这样的:

但我得到了这样的错误:

既然annotate可以带字符串或数组作为参数,为什么我可以使用文本文件作为参数呢?我应该如何修改我的代码?谢谢!

0 投票
1 回答
239 浏览

scala - 如何在 sparknlp 中为文本文件使用注释器

由于我是激发 NLP 的初学者,我开始使用johnsnowlabs中显示的功能进行一些动手练习

我正在使用SCALA数据块,我从https://www.gutenberg.org/获得了一个大文本文件

所以首先我导入必要的库和数据如下,

如何根据我的目的使用 johnsnowlabs 中可用的不同注释器?

例如,如果我想找到停用词,那么我可以使用

但我不知道如何使用它并找到我的文本文件的停用词。我需要使用带有注释器的预训练模型吗?

我发现很难找到一个很好的教程。因此,如果有人可以提供一些有用的提示,将不胜感激。

0 投票
2 回答
248 浏览

scala - 关于使用 scala 的 spark nlp 的错误

我是 spark-nlp 的初学者,我正在通过johnsnowlabs中的示例来学习它。我在数据块中使用 SCALA。

当我按照以下示例进行操作时,

运行最后一行时出现以下错误:

这可能是什么原因?

当我尝试做这个例子时,通过省略这一行,我添加了以下额外的代码行

运行最后一行时出现另一个错误:

谁能帮我解决这个问题?

谢谢

0 投票
0 回答
366 浏览

regex - 如何在 SparkNLP 中使用 RegexMatcher

情况就是这样。我想用 Scala 内核在 Jupyterlab 上运行 SparkNLP。我想使用RegexMatcher注释。我将模式保存在一个名为patterns.txts3 存储桶的文件中。我尝试了下面的实现

但是,它似乎根本不起作用,patterns.txt也没有使用。如何修复它。

0 投票
0 回答
267 浏览

pyspark - SparkNLP 中的 inputCols 注释器错误或缺失

我在数据帧 df 上使用 SentimentDetector 注释器,它有一个列文本,但我不断收到以下错误

java.lang.IllegalArgumentException:要求失败:SentimentDetectorModel_c51007285c65 中的 inputCols 注释器错误或缺失

0 投票
1 回答
124 浏览

python - 无法让 Spark NLP 在 Databricks 上工作

我做了以下事情:

加...

我收到此错误消息: 错误消息

任何帮助将非常感激!

谢谢, 开尔文

0 投票
1 回答
208 浏览

python - Spark相当于Keras Tokenizer?

到目前为止,我使用 numpy 和内置函数(例如 keras tokenizer 类,tf.keras.preprocessing.text.Tokenizer:https ://keras.io/api/preprocessing/text/ )对文本数据进行预处理。

还有我被卡住了:因为我试图扩大我的模型和数据集,所以我正在试验 spark 和 spark nlp ( https://nlp.johnsnowlabs.com/docs/en/annotators#tokenizer ).. . 但是,我还没有找到类似的工作标记器。拟合的标记器必须稍后可用于转换验证/新数据。

我的输出应该将每个标记表示为一个唯一的整数值(从 1 开始),例如:

目前,我可以使用 Spark NLP-tokenizer 来获取标记词:

有没有人有不需要将数据复制出火花环境的解决方案?

更新:

我创建了两个 CSV 来澄清我当前的问题。第一个文件是通过预处理管道创建的:1.cleaned_delim_text

之后,分隔的单词应该被“翻译”成整数值,序列应该用零填充到相同的长度:2.cleaned_tok_text

0 投票
1 回答
675 浏览

pyspark - 在 Databricks 上使用 sparknlp 的预训练模型

我正在尝试遵循 John Snow Labs 的官方示例,但每次出现TypeError: 'JavaPackage' object is not callable错误时。我遵循了Databricks 安装文档中的所有步骤,但无论我尝试什么演练,无论是这个还是这个失败了。

第一个示例(安装后):

如果我尝试,如果不是确切的错误,我会得到类似的错误:

对于第二个示例,我也遇到了同样的错误。Databricks 运行时版本为:6.5(包括 Apache Spark 2.4.5、Scala 2.11),在已批准的运行时列表中。

我不确定错误消息的含义或如何解决它们。

0 投票
1 回答
286 浏览

apache-zeppelin - 对象 johnsnowlabs 不是包 com 的成员

我对 Zeppelin/spark 非常陌生,无法准确描述配置新依赖项(如 NLP 库)的步骤。在这里发现了类似的问题。

我试图在 Zeppelin 笔记本(spark version2.2.1)中使用 Johnsnowlabs NLP 库。设置包括:

  1. 在 Zeppelin 的 Spark 解释器配置中,包括以下工件:com.johnsnowlabs.nlp:spark-nlp_2.11:2.5.4
  2. 然后,在 conf/zeppelin-env.sh 中,设置 SPARK_SUBMIT_OPTIONS。export SPARK_SUBMIT_OPTIONS=” — 包 JohnSnowLabs:spark-nlp:2.2.2”。然后重新启动 Zeppelin。

但是下面的程序给出了错误:

有人可以分享如何做到这一点吗?我提到了这个链接。TIA