好的,所以我正在使用 java 类处理搜索日志,但在某些时候,我偶然发现了日志中的一个棘手部分:
通常,日志行如下所示:
217 yahoo.com 2006-05-16 16:35:31
第一个数字是用户 ID,之后的字符串是查询,之后是时间戳。到目前为止一切顺利,我设法提取了用户 ID 并使用 .split(':') 和 split('-') 来获取时间戳的部分。但在日志的更下方,行的组成有点令人不快——例如,有如下行:
217 - 2006-05-18 18:20:10 1 http://www.theonering.net
1268 osteen-schatzberg.com 2006-03-21 17:55:42 1 http://www.osteen-schatzberg.com
在第一行中,“-”似乎标记了一个空查询或 w/e,最后的 url 标记为“clickurl”。有了这样的行,我使用 split() 来接收时间戳(以及查询)的想法就变成了地狱......
有谁知道如何解决这个问题?
提前致谢