我是hadoop和mapreduce的新手。在映射器中,我将使用以下给定格式对文本文件中的这些数据进行标记,前几行
9593C58F7C1C5CE4 970916072134 levis
9593C58F7C1C5CE4 970916072311 levis strause & co
9593C58F7C1C5CE4 970916072339 levis 501 jeans
45531846E8E7C127 970916065859
45531846E8E7C127 970916065935
45531846E8E7C127 970916070105 "brazillian soccer teams"
45531846E8E7C127 970916070248 "brazillian soccer"
45531846E8E7C127 970916071154 "population of maldives"
082A665972806A62 970916123431 pegasus
F6C8FFEAA26F1778 970916070130 "alicia silverstone" cutest crush batgirl babysitter clueless
945FF0D5996FD556 970916142859 mirc
使用 String Tokenizer 我无法拆分这些数据,它让机器从这个文件中捕获数据感到困惑。除了 String.split() 之外,这个问题还有其他选择吗