我正在尝试使用正则表达式 SerDe 从文本文件创建配置单元表。我开始很容易,只想将文本文档中的每个单词解析成一行。每行有一列,这就是单词。
我使用的正则表达式是 ([a-zA-z]+)
这是我向 hive 发出的 create table 命令的后半部分,
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ("input.regex" = "([a-zA-Z]+)", "output.format.string" = "% 1$s" ) 存储为文本文件;
目前该表包含几乎所有 NULL。
任何帮助都会很棒,谢谢!