我的重点是解析一些纯文本,其中包含有关用户的信息,包括每个用户使用的浏览器、版本和操作系统,并提取这些信息(浏览器/版本、操作系统/版本....)
是否有任何具有类似问题焦点的通用框架/库(在 Java [首选] 或 C++ 中)?我相信每个解析问题可能有不同的属性,需要稍微不同的方法,但如果你知道,请分享或建议,因为这将有助于澄清问题的步骤,并可能避免重复的工作或错误或提高效率。
我找到了 Oracle 用于文本分析的模式,这看起来很有趣:(http://www.oracle.com/webfolder/technetwork/data-quality/edqhelp/Content/processor_library/text_analysis/parse.htm)
输入数据量可能相当大,但为了简单起见,我们暂时可以忽略数据量。