问题标签 [johnsnowlabs-spark-nlp]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

75 问题

0 投票

1 回答

36 浏览

python - Pycharm 不支持包依赖项

我安装了一个 pycharm 应用程序并配置了解释器。在我通过 pycharm 中的 pip 安装 spark-nlp 包并尝试运行程序后，它表明它缺少 pyspark 包形式的依赖关系。当我安装 pyspark 时，它抱怨丢失了一堆软件包。venv 不应该自动解决所有要求吗？

2020-02-11T20:03:12.273

0 投票

0 回答

162 浏览

scala - 如何使用 sparknlp 注释文本文件？

我正在使用 Sparknlp 在 databrick 中注释一个长文本文件。我的代码是这样的：

但我得到了这样的错误：

既然annotate可以带字符串或数组作为参数，为什么我可以使用文本文件作为参数呢？我应该如何修改我的代码？谢谢！

scala nlp johnsnowlabs-spark-nlp

2020-02-11T23:09:25.373

0 投票

1 回答

239 浏览

scala - 如何在 sparknlp 中为文本文件使用注释器

由于我是激发 NLP 的初学者，我开始使用johnsnowlabs中显示的功能进行一些动手练习

我正在使用SCALA数据块，我从https://www.gutenberg.org/获得了一个大文本文件

所以首先我导入必要的库和数据如下，

如何根据我的目的使用 johnsnowlabs 中可用的不同注释器？

例如，如果我想找到停用词，那么我可以使用

但我不知道如何使用它并找到我的文本文件的停用词。我需要使用带有注释器的预训练模型吗？

我发现很难找到一个很好的教程。因此，如果有人可以提供一些有用的提示，将不胜感激。

scala apache-spark johnsnowlabs-spark-nlp

2020-02-28T06:31:57.607

0 投票

2 回答

248 浏览

scala - 关于使用 scala 的 spark nlp 的错误

我是 spark-nlp 的初学者，我正在通过johnsnowlabs中的示例来学习它。我在数据块中使用 SCALA。

当我按照以下示例进行操作时，

运行最后一行时出现以下错误：

这可能是什么原因？

当我尝试做这个例子时，通过省略这一行，我添加了以下额外的代码行

运行最后一行时出现另一个错误：

谁能帮我解决这个问题？

谢谢

scala apache-spark databricks johnsnowlabs-spark-nlp

2020-02-28T16:48:43.750

0 投票

0 回答

366 浏览

regex - 如何在 SparkNLP 中使用 RegexMatcher

情况就是这样。我想用 Scala 内核在 Jupyterlab 上运行 SparkNLP。我想使用RegexMatcher注释。我将模式保存在一个名为patterns.txts3 存储桶的文件中。我尝试了下面的实现

但是，它似乎根本不起作用，patterns.txt也没有使用。如何修复它。

regex scala apache-spark-sql nlp johnsnowlabs-spark-nlp

2020-03-19T21:21:04.180

0 投票

0 回答

267 浏览

pyspark - SparkNLP 中的 inputCols 注释器错误或缺失

我在数据帧 df 上使用 SentimentDetector 注释器，它有一个列文本，但我不断收到以下错误

java.lang.IllegalArgumentException：要求失败：SentimentDetectorModel_c51007285c65 中的 inputCols 注释器错误或缺失

pyspark nlp johnsnowlabs-spark-nlp

2020-04-24T02:42:19.570

0 投票

1 回答

124 浏览

python - 无法让 Spark NLP 在 Databricks 上工作

我做了以下事情：

加...

我收到此错误消息：错误消息

任何帮助将非常感激！

谢谢，开尔文

python pyspark nlp databricks johnsnowlabs-spark-nlp

2020-05-10T00:56:59.523

0 投票

1 回答

208 浏览

python - Spark相当于Keras Tokenizer？

到目前为止，我使用 numpy 和内置函数（例如 keras tokenizer 类，tf.keras.preprocessing.text.Tokenizer：https ://keras.io/api/preprocessing/text/ ）对文本数据进行预处理。

还有我被卡住了：因为我试图扩大我的模型和数据集，所以我正在试验 spark 和 spark nlp ( https://nlp.johnsnowlabs.com/docs/en/annotators#tokenizer ).. . 但是，我还没有找到类似的工作标记器。拟合的标记器必须稍后可用于转换验证/新数据。

我的输出应该将每个标记表示为一个唯一的整数值（从 1 开始），例如：

目前，我可以使用 Spark NLP-tokenizer 来获取标记词：

有没有人有不需要将数据复制出火花环境的解决方案？

更新：

我创建了两个 CSV 来澄清我当前的问题。第一个文件是通过预处理管道创建的：1.cleaned_delim_text

之后，分隔的单词应该被“翻译”成整数值，序列应该用零填充到相同的长度：2.cleaned_tok_text

python apache-spark pyspark tokenize johnsnowlabs-spark-nlp

2020-06-18T17:47:08.157

0 投票

1 回答

675 浏览

pyspark - 在 Databricks 上使用 sparknlp 的预训练模型

我正在尝试遵循 John Snow Labs 的官方示例，但每次出现TypeError: 'JavaPackage' object is not callable错误时。我遵循了Databricks 安装文档中的所有步骤，但无论我尝试什么演练，无论是这个还是这个都失败了。

第一个示例（安装后）：

如果我尝试，如果不是确切的错误，我会得到类似的错误：

对于第二个示例，我也遇到了同样的错误。Databricks 运行时版本为：6.5（包括 Apache Spark 2.4.5、Scala 2.11），在已批准的运行时列表中。

我不确定错误消息的含义或如何解决它们。

pyspark databricks johnsnowlabs-spark-nlp

2020-06-20T13:55:23.477

0 投票

1 回答

286 浏览

apache-zeppelin - 对象 johnsnowlabs 不是包 com 的成员

我对 Zeppelin/spark 非常陌生，无法准确描述配置新依赖项（如 NLP 库）的步骤。在这里发现了类似的问题。

我试图在 Zeppelin 笔记本（spark version2.2.1）中使用 Johnsnowlabs NLP 库。设置包括：

在 Zeppelin 的 Spark 解释器配置中，包括以下工件：com.johnsnowlabs.nlp:spark-nlp_2.11:2.5.4
然后，在 conf/zeppelin-env.sh 中，设置 SPARK_SUBMIT_OPTIONS。export SPARK_SUBMIT_OPTIONS=” — 包 JohnSnowLabs:spark-nlp:2.2.2”。然后重新启动 Zeppelin。

但是下面的程序给出了错误：

有人可以分享如何做到这一点吗？我提到了这个链接。TIA

apache-zeppelin johnsnowlabs-spark-nlp

2020-07-28T10:35:23.273

1 2 3 4 5 6 7 8 9 10

问题标签 [johnsnowlabs-spark-nlp]

Reference