hadoop - Hive UDF 文本到数组

Question

我正在尝试为 Hive 创建一些 UDF，它为我提供了比已经提供的功能更多的split()功能。

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class LowerCase extends UDF {

  public Text evaluate(final Text text) {
    return new Text(stemWord(text.toString()));
  }

  /**
   * Stems words to normal form.
   * 
   * @param word
   * @return Stemmed word.
   */
  private String stemWord(String word) {
    word = word.toLowerCase();
    // Remove special characters
    // Porter stemmer
    // ...
    return word;
  }
}

这在 Hive 中有效。我将这个类导出到一个 jar 文件中。然后我将它加载到 Hive 中

add jar /path/to/myJar.jar;

并使用创建一个函数

create temporary function lower_case as 'LowerCase';

我有一张表，里面有一个字符串字段。那么声明如下：

select lower_case(text) from documents;

但是现在我想创建一个返回数组的函数（例如 split ）。

import java.util.ArrayList;
import java.util.List;
import java.util.StringTokenizer;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class WordSplit extends UDF {

  public Text[] evaluate(final Text text) {
    List<Text> splitList = new ArrayList<>();

    StringTokenizer tokenizer = new StringTokenizer(text.toString());

    while (tokenizer.hasMoreElements()) {
      Text word = new Text(stemWord((String) tokenizer.nextElement()));

      splitList.add(word);
    }

    return splitList.toArray(new Text[splitList.size()]);
  }

  /**
   * Stems words to normal form.
   * 
   * @param word
   * @return Stemmed word.
   */
  private String stemWord(String word) {
    word = word.toLowerCase();
    // Remove special characters
    // Porter stemmer
    // ...
    return word;
  }
}

不幸的是，如果我执行上述完全相同的加载过程，此功能将不起作用。我收到以下错误：

FAILED: SemanticException java.lang.IllegalArgumentException: Error: name expected at the position 7 of 'struct<>' but '>' is found.

由于我还没有找到任何提到这种转换的文档，我希望你能给我一些建议！

score 10 · Accepted Answer

实际上“UDF”接口确实支持返回一个数组。

返回ArrayList<Text>甚至ArrayList<String>代替Text[]

您的代码应如下所示：

import java.util.ArrayList;
import java.util.List;
import java.util.StringTokenizer;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class WordSplit extends UDF {

  public ArrayList<String> evaluate(final Text text) {
    ArrayList<String> splitList = new ArrayList<String>();

    StringTokenizer tokenizer = new StringTokenizer(text.toString());

    while (tokenizer.hasMoreElements()) {
      String word = stemWord((String) tokenizer.nextElement());
      splitList.add(word);
    }
    return splitList;
  }

  /**
   * Stems words to normal form.
   *
   * @param word
   * @return Stemmed word.
   */
  private String stemWord(String word) {
    word = word.toLowerCase();
    return word;
  }
}

score 2 · Accepted Answer

我认为“UDF”界面不会提供您想要的。您想使用 GenericUDF。我会使用拆分 UDF 的来源作为指导。

http://grepcode.com/file/repository.cloudera.com/content/repositories/releases/org.apache.hadoop.hive/hive-exec/0.7.1-cdh3u1/org/apache/hadoop/hive/ql/ udf/generic/GenericUDFSplit.java

hadoop - Hive UDF 文本到数组

2 回答 2

Related

Reference