问题标签 [johnsnowlabs-spark-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pycharm 不支持包依赖项
我安装了一个 pycharm 应用程序并配置了解释器。在我通过 pycharm 中的 pip 安装 spark-nlp 包并尝试运行程序后,它表明它缺少 pyspark 包形式的依赖关系。当我安装 pyspark 时,它抱怨丢失了一堆软件包。venv 不应该自动解决所有要求吗?
scala - 如何使用 sparknlp 注释文本文件?
我正在使用 Sparknlp 在 databrick 中注释一个长文本文件。我的代码是这样的:
但我得到了这样的错误:
既然annotate可以带字符串或数组作为参数,为什么我可以使用文本文件作为参数呢?我应该如何修改我的代码?谢谢!
scala - 如何在 sparknlp 中为文本文件使用注释器
由于我是激发 NLP 的初学者,我开始使用johnsnowlabs中显示的功能进行一些动手练习
我正在使用SCALA
数据块,我从https://www.gutenberg.org/获得了一个大文本文件
所以首先我导入必要的库和数据如下,
如何根据我的目的使用 johnsnowlabs 中可用的不同注释器?
例如,如果我想找到停用词,那么我可以使用
但我不知道如何使用它并找到我的文本文件的停用词。我需要使用带有注释器的预训练模型吗?
我发现很难找到一个很好的教程。因此,如果有人可以提供一些有用的提示,将不胜感激。
scala - 关于使用 scala 的 spark nlp 的错误
我是 spark-nlp 的初学者,我正在通过johnsnowlabs中的示例来学习它。我在数据块中使用 SCALA。
当我按照以下示例进行操作时,
运行最后一行时出现以下错误:
这可能是什么原因?
当我尝试做这个例子时,通过省略这一行,我添加了以下额外的代码行
运行最后一行时出现另一个错误:
谁能帮我解决这个问题?
谢谢
regex - 如何在 SparkNLP 中使用 RegexMatcher
情况就是这样。我想用 Scala 内核在 Jupyterlab 上运行 SparkNLP。我想使用RegexMatcher
注释。我将模式保存在一个名为patterns.txt
s3 存储桶的文件中。我尝试了下面的实现
但是,它似乎根本不起作用,patterns.txt
也没有使用。如何修复它。
pyspark - SparkNLP 中的 inputCols 注释器错误或缺失
我在数据帧 df 上使用 SentimentDetector 注释器,它有一个列文本,但我不断收到以下错误
java.lang.IllegalArgumentException:要求失败:SentimentDetectorModel_c51007285c65 中的 inputCols 注释器错误或缺失
python - Spark相当于Keras Tokenizer?
到目前为止,我使用 numpy 和内置函数(例如 keras tokenizer 类,tf.keras.preprocessing.text.Tokenizer:https ://keras.io/api/preprocessing/text/ )对文本数据进行预处理。
还有我被卡住了:因为我试图扩大我的模型和数据集,所以我正在试验 spark 和 spark nlp ( https://nlp.johnsnowlabs.com/docs/en/annotators#tokenizer ).. . 但是,我还没有找到类似的工作标记器。拟合的标记器必须稍后可用于转换验证/新数据。
我的输出应该将每个标记表示为一个唯一的整数值(从 1 开始),例如:
目前,我可以使用 Spark NLP-tokenizer 来获取标记词:
有没有人有不需要将数据复制出火花环境的解决方案?
更新:
我创建了两个 CSV 来澄清我当前的问题。第一个文件是通过预处理管道创建的:1.cleaned_delim_text
之后,分隔的单词应该被“翻译”成整数值,序列应该用零填充到相同的长度:2.cleaned_tok_text
pyspark - 在 Databricks 上使用 sparknlp 的预训练模型
我正在尝试遵循 John Snow Labs 的官方示例,但每次出现TypeError: 'JavaPackage' object is not callable
错误时。我遵循了Databricks 安装文档中的所有步骤,但无论我尝试什么演练,无论是这个还是这个都失败了。
第一个示例(安装后):
如果我尝试,如果不是确切的错误,我会得到类似的错误:
对于第二个示例,我也遇到了同样的错误。Databricks 运行时版本为:6.5(包括 Apache Spark 2.4.5、Scala 2.11),在已批准的运行时列表中。
我不确定错误消息的含义或如何解决它们。
apache-zeppelin - 对象 johnsnowlabs 不是包 com 的成员
我对 Zeppelin/spark 非常陌生,无法准确描述配置新依赖项(如 NLP 库)的步骤。在这里发现了类似的问题。
我试图在 Zeppelin 笔记本(spark version2.2.1)中使用 Johnsnowlabs NLP 库。设置包括:
- 在 Zeppelin 的 Spark 解释器配置中,包括以下工件:com.johnsnowlabs.nlp:spark-nlp_2.11:2.5.4
- 然后,在 conf/zeppelin-env.sh 中,设置 SPARK_SUBMIT_OPTIONS。export SPARK_SUBMIT_OPTIONS=” — 包 JohnSnowLabs:spark-nlp:2.2.2”。然后重新启动 Zeppelin。
但是下面的程序给出了错误:
有人可以分享如何做到这一点吗?我提到了这个链接。TIA