scala - 如何使用 sparknlp 注释文本文件？

翻译自：https://stackoverflow.com/questions/60178726 2020-02-11T23:09:25.373

162 次

我正在使用 Sparknlp 在 databrick 中注释一个长文本文件。我的代码是这样的：

    import com.johnsnowlabs.nlp.base._
    import com.johnsnowlabs.nlp.annotator._
    val lines = sc.textFile("/FileStore/tables/48320_0-3f0d3.txt")
    import com.johnsnowlabs.nlp.pretrained.PretrainedPipeline
    val result = PretrainedPipeline("explain_document_ml").annotate(lines)

但我得到了这样的错误：

command-2722311848879511:1: error: overloaded method value annotate with alternatives:
  (target: Array[String])Array[Map[String,Seq[String]]] <and>
  (target: String)Map[String,Seq[String]]
 cannot be applied to (org.apache.spark.rdd.RDD[String])
val result = PretrainedPipeline("explain_document_ml").annotate(lines)

既然annotate可以带字符串或数组作为参数，为什么我可以使用文本文件作为参数呢？我应该如何修改我的代码？谢谢！

scala - 如何使用 sparknlp 注释文本文件？

0 回答 0

Related

Reference