我是 Pig 的新手,我正在尝试编写一个字数统计程序。
从文本中获取单词的一种方法是使用以下TOKENIZE
函数:
WORDS = foreach INPUT generate flatten(TOKENIZE(text)) AS word;
但我只想拆分空格,而TOKENIZE
拆分逗号之类的东西。我该怎么做?我尝试使用STRSPLIT(text, ' ')
,但STRSPLIT
似乎返回一个元组而TOKENIZE
返回一个包,所以我不确定如何使用STRSPLIT
它。